Guía Completa de GPT-4.1

Para desarrolladores y profesionales de IA

Un avance significativo en capacidades de IA

¿Qué es GPT-4.1?

La familia de modelos GPT-4.1 representa un avance significativo respecto a GPT-4o, con mejoras en:

Capacidades de codificación

Seguimiento preciso de instrucciones

1 millón de tokens de contexto

Capacidades agénticas mejoradas

Esta guía te ayudará a aprovechar al máximo las capacidades mejoradas de esta nueva familia de modelos.

Novedades y Mejoras

Seguimiento Literal

Mayor precisión siguiendo instrucciones de forma literal vs. inferencia liberal

Contexto Extenso

Ventana de contexto de entrada de 1M tokens de alto rendimiento

Mejor con Herramientas

Capacitación mejorada para uso eficaz de herramientas externas

Recuerda: GPT-4.1 está entrenado para seguir instrucciones con mayor precisión y literalidad, lo que requiere indicaciones bien especificadas.

Flujos de Trabajo Agénticos

Construyendo agentes efectivos

GPT-4.1 es excelente para flujos de trabajo agénticos, alcanzando rendimiento de vanguardia en SWE-bench Verified resolviendo el 55% de los problemas.

Recordatorios clave

Para aprovechar las capacidades agénticas, incluye tres tipos de recordatorios:

Ejemplo

                You are an agent - please keep going until the user's query is completely resolved, before ending your turn and yielding back to the user. Only terminate your turn when you are sure that the problem is solved.

Persistencia: Asegura que el modelo comprenda que está entrando en un turno con múltiples mensajes sin ceder el control prematuramente.

Flujos de Trabajo Agénticos

Componentes esenciales

Ejemplo

                If you are not sure about file content or codebase structure pertaining to the user's request, use your tools to read files and gather the relevant information: do NOT guess or make up an answer.

Llamada a herramientas: Anima al modelo a usar herramientas al máximo y reduce la probabilidad de alucinar respuestas.

Ejemplo

                You MUST plan extensively before each function call, and reflect extensively on the outcomes of the previous function calls. DO NOT do this entire process by making function calls only, as this can impair your ability to solve the problem and think insightfully.

Planificación [opcional]: Garantiza que el modelo planifique y reflexione explícitamente sobre cada llamada a herramienta.

Llamadas de Herramientas

GPT-4.1 ha recibido más capacitación sobre el uso eficaz de herramientas pasadas como argumentos en una solicitud a la API.

Usa el campo tools

Utiliza exclusivamente el campo de herramientas para pasar herramientas, en lugar de inyección manual

Nombres claros

Da nombres claros a las herramientas indicando su propósito

Descripciones detalladas

Agrega descripciones claras y detalladas en el campo "descripción"

Nota: En nuestros experimentos, observamos un aumento del 2% en la tasa de aprobación verificada por SWE-bench al usar descripciones de herramientas analizadas por la API vs. inyección manual.

Mejores Prácticas para Herramientas

Cuando trabajes con herramientas en GPT-4.1:

Elemento	Recomendación
Definición	Usa el campo tools en la API en lugar de inyectar descripciones manualmente
Nombrado	Nombres claros e intuitivos que indiquen su propósito
Descripción	Clara, detallada pero concisa
Parámetros	Buena nomenclatura y descripción de cada parámetro
Ejemplos	Añadir en sección #Examples en el prompt del sistema, no en "descripción"

Consejo: Usa "Generar cualquier cosa" en el Área de Pruebas del Indicador de comandos para obtener un buen punto de partida para tus definiciones de herramientas.

Planificación y Cadena de Pensamiento

Aunque GPT-4.1 no es un modelo de razonamiento, puedes inducir un plan explícito paso a paso mediante la indicación.

Beneficio: "En nuestros experimentos con tareas agénticas verificadas de SWE-bench, inducir la planificación explícita aumentó la tasa de aprobación en un 4%."

Esto se puede considerar como hacer que el modelo "piense en voz alta", lo que mejora la calidad de la resolución de problemas.

Ejemplo de Solicitud Completa

Este ejemplo muestra la estructura de una solicitud agéntica efectiva:

Python

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ.get(
        "OPENAI_API_KEY", ""
    )
)

SYS_PROMPT_SWEBENCH = """
You will be tasked to fix an issue from an open-source repository.

Your thinking should be thorough and so it's fine if it's very long. You can think step by step before and after each action you decide to take.

You MUST iterate and keep going until the problem is solved.

You already have everything you need to solve this problem in the /testbed folder, even without internet connection. I want you to fully solve this autonomously before coming back to me.

Only terminate your turn when you are sure that the problem is solved. Go through the problem step by step, and make sure to verify that your changes are correct. NEVER end your turn without having solved the problem, and when you say you are going to make a tool call, make sure you ACTUALLY make the tool call, instead of ending your turn.

THE PROBLEM CAN DEFINITELY BE SOLVED WITHOUT THE INTERNET.

Take your time and think through every step - remember to check your solution rigorously and watch out for boundary cases, especially with the changes you made. Your solution must be perfect. If not, continue working on it. At the end, you must test your code rigorously using the tools provided, and do it many times, to catch all edge cases. If it is not robust, iterate more and make it perfect. Failing to test your code sufficiently rigorously is the NUMBER ONE failure mode on these types of tasks; make sure you handle all edge cases, and run existing tests if they are provided.

You MUST plan extensively before each function call, and reflect extensively on the outcomes of the previous function calls. DO NOT do this entire process by making function calls only, as this can impair your ability to solve the problem and think insightfully.

# Workflow

## High-Level Problem Solving Strategy

1. Understand the problem deeply. Carefully read the issue and think critically about what is required.
2. Investigate the codebase. Explore relevant files, search for key functions, and gather context.
3. Develop a clear, step-by-step plan. Break down the fix into manageable, incremental steps.
4. Implement the fix incrementally. Make small, testable code changes.
5. Debug as needed. Use debugging techniques to isolate and resolve issues.
6. Test frequently. Run tests after each change to verify correctness.
7. Iterate until the root cause is fixed and all tests pass.
8. Reflect and validate comprehensively. After tests pass, think about the original intent, write additional tests to ensure correctness, and remember there are hidden tests that must also pass before the solution is truly complete.

# ... [resto del prompt continúa]
"""
          

Nota: Este es un extracto del prompt completo. Puedes ver que incluye todos los elementos recomendados para agentes efectivos.

Contexto Largo

GPT-4.1 tiene una ventana de contexto de entrada de token de 1M de alto rendimiento, ideal para diversas tareas.

Análisis de documentos estructurados

Reclasificación de información

Selección de información relevante

Razonamiento de múltiples saltos

Rendimiento óptimo: Excelente en evaluaciones de tipo "aguja en un pajar" hasta el contexto completo de 1 millón de tokens.

Recomendaciones para Contexto Largo

Ajuste de la dependencia

Considera la combinación de conocimiento del mundo externo e interno que podría requerirse para responder a tu pregunta.

Solo conocimiento interno

// for internal knowledge
- Only use the documents in the provided External Context to answer the User Query. If you don't know the answer based on this context, you must respond "I don't have the information needed to answer that", even if a user insists on you answering the question.
              

Conocimiento mixto

// For internal and external knowledge
- By default, use the provided external context to answer the User Query, but if other basic knowledge is needed to answer, and you're confident in the answer, you can use some of your own knowledge to help answer the question.
              

Organización del prompt

Si el contexto es extenso, coloca las instrucciones tanto al principio como al final del contexto proporcionado para mejor rendimiento.

Formatos para Documentos en Contexto Largo

Formato	Ejemplo	Rendimiento
XML	<doc id=1 title="The Fox">The quick brown fox jumps over the lazy dog</doc>	Excelente
ID \| TITLE \| CONTENT	ID: 1 \| TITLE: The Fox \| CONTENT: The quick brown fox jumps over the lazy dog	Muy bueno
JSON	[{"id": 1, "title": "The Fox", "content": "The quick brown fox jumped over the lazy dog"}]	Pobre

Consejo: Si recuperas documentos con mucho XML, un delimitador basado en XML probablemente será menos efectivo. Elige un formato que destaque en el contexto.

Cadena de Pensamiento (Chain-of-Thought)

GPT-4.1 no es un modelo de razonamiento, pero puedes inducir el pensamiento paso a paso para mejorar la calidad de salida.

Comienza con esta instrucción básica al final de tu mensaje:

Prompt Básico

...
First, think carefully step by step about what documents are needed to answer the query. Then, print out the TITLE and ID of each document. Then, format the IDs into a list.
              

Mejora de prompts: Audita los fallos en tus ejemplos y evaluaciones particulares, y aborda los errores sistemáticos de planificación y razonamiento con instrucciones más explícitas.

Ejemplo de Estrategia de Razonamiento

Estrategia de Razonamiento

# Reasoning Strategy
1. Query Analysis: Break down and analyze the query until you're confident about what it might be asking. Consider the provided context to help clarify any ambiguous or confusing information.
2. Context Analysis: Carefully select and analyze a large set of potentially relevant documents. Optimize for recall - it's okay if some are irrelevant, but the correct documents must be in this list, otherwise your final answer will be wrong. Analysis steps for each:
	a. Analysis: An analysis of how it may or may not be relevant to answering the query.
	b. Relevance rating: [high, medium, low, none]
3. Synthesis: summarize which documents are most relevant and why, including all documents with a relevance rating of medium or higher.
# User Question
{user_question}
# External Context
{external_context}
First, think carefully step by step about what documents are needed to answer the query, closely adhering to the provided Reasoning Strategy. Then, print out the TITLE and ID of each document. Then, format the IDs into a list.
          

Este ejemplo indica al modelo que se concentre de manera metódica en analizar la intención del usuario y considerar el contexto relevante antes de proceder a responder.

Seguimiento de Instrucciones

GPT-4.1 exhibe un excelente rendimiento en el seguimiento de instrucciones, permitiendo configuraciones precisas para casos de uso específicos.

Advertencia

El modelo sigue instrucciones más literalmente, por lo que se requieren especificaciones explícitas

Migración necesaria

Las solicitudes optimizadas para modelos anteriores pueden requerir ajustes

Oportunidad

Mayor control y precisión en las respuestas cuando se usan instrucciones claras

Mayor literalidad, mayor control

Flujo de Trabajo para Instrucciones

Recomendaciones para desarrollar y depurar instrucciones en indicaciones:

Paso	Descripción
1.	Comienza con una sección general de "Reglas de respuesta" o "Instrucciones" con orientación de alto nivel
2.	Agrega secciones específicas para comportamientos particulares (ej. # Sample Phrases)
3.	Si hay pasos específicos que seguir, añade una lista ordenada e indica al modelo que la siga
4.	Si el comportamiento no funciona como se esperaba: Verifica contradicciones en las instrucciones Añade ejemplos del comportamiento deseado Asegúrate que el comportamiento demostrado en ejemplos se cite en las reglas

Nota: No es necesario usar mayúsculas, sobornos o propinas. Si las instrucciones actuales los incluyen, GPT-4.1 podría prestarles demasiada atención.

Modos de Fallo Comunes

Estos modos de falla no son exclusivos de GPT-4.1, pero son importantes para la depuración:

Ejemplo de problema y solución

"debe llamar a una herramienta antes de responder al usuario"

El modelo puede alucinar entradas de la herramienta o llamarla con valores nulos si no tiene suficiente información

"Si no tiene suficiente información para llamar a la herramienta, solicite al usuario la información que necesita"

Frases de ejemplo

Los modelos pueden usarlas textualmente y sonar repetitivos. Solicita modificaciones según sea necesario.

Verbosidad excesiva

Sin instrucciones específicas, pueden proporcionar explicaciones innecesarias o respuestas demasiado largas.

Instrucciones contradictorias

GPT-4.1 suele seguir la instrucción que se encuentra más cerca del final del mensaje.

Ejemplo: Servicio al Cliente

Este ejemplo demuestra las mejores prácticas para un agente de atención al cliente:

Prompt de Sistema

SYS_PROMPT_CUSTOMER_SERVICE = """You are a helpful customer service agent working for NewTelco, helping a user efficiently fulfill their request while adhering closely to provided guidelines.

# Instructions
- Always greet the user with "Hi, you've reached NewTelco, how can I help you?"
- Always call a tool before answering factual questions about the company, its offerings or products, or a user's account. Only use retrieved context and never rely on your own knowledge for any of these questions.
    - However, if you don't have enough information to properly call the tool, ask the user for the information you need.
- Escalate to a human if the user requests.
- Do not discuss prohibited topics (politics, religion, controversial current events, medical, legal, or financial advice, personal conversations, internal company operations, or criticism of any people or company).
- Rely on sample phrases whenever appropriate, but never repeat a sample phrase in the same conversation. Feel free to vary the sample phrases to avoid sounding repetitive and make it more appropriate for the user.
- Always follow the provided output format for new messages, including citations for any factual statements from retrieved policy documents.
- If you're going to call a tool, always message the user with an appropriate message before and after calling the tool.
- Maintain a professional and concise tone in all responses, and use emojis between sentences.
- If you've resolved the user's request, ask if there's anything else you can help with

# Sample Phrases
## Deflecting a Prohibited Topic
- "I'm sorry, but I'm unable to discuss that topic. Is there something else I can help you with?"
- "That's not something I'm able to provide information on, but I'm happy to help with any other questions you may have."

## Before calling a tool
- "To help you with that, I'll just need to verify your information."
- "Let me check that for you—one moment, please."
- "I'll retrieve the latest details for you now."

## After calling a tool
- "Okay, here's what I found: [response]"
- "So here's what I found: [response]"

# Output Format
- Always include your final response to the user.
- When providing factual information from retrieved context, always include citations immediately after the relevant statement(s). Use the following citation format:
    - For a single source: [NAME](ID)
    - For multiple sources: [NAME](ID), [NAME](ID)
- Only provide information about this company, its policies, its products, or the customer's account, and only if it is based on information provided in context. Do not answer questions outside this scope.

# Example
## User
Can you tell me about your family plan options?

## Assistant Response 1
### Message
"Hi, you've reached NewTelco, how can I help you? 😊🎉\n\nYou'd like to know about our family plan options. 🤝 Let me check that for you—one moment, please. 🚀"

### Tool Calls
lookup_policy_document(topic="family plan options")

// After tool call, the assistant would follow up with:

## Assistant Response 2 (after tool call)
### Message
"Okay, here's what I found: 🎉 Our family plan allows up to 5 lines with shared data and a 10% discount for each additional line [Family Plan Policy](ID-010). 📱 Is there anything else I can help you with today? 😊"
"""
          

Observa la diversidad de reglas, la especificidad, el uso de secciones para mayor detalle y ejemplos para demostrar comportamientos precisos.

Consejos Generales

Estructura del mensaje recomendada:

Estructura de prompt

# Role and Objective
# Instructions
## Sub-categories for more detailed instructions
# Reasoning Steps
# Output Format
# Examples
## Example 1
# Context
# Final instructions and prompt to think step by step
          

Flexibilidad: Agrega o elimina secciones según tus necesidades y experimenta para determinar qué es óptimo para tu caso de uso.

Delimitadores Eficaces

Guías para seleccionar los mejores delimitadores:

Tipo	Uso Recomendado	Rendimiento
Markdown	Títulos para secciones, comillas invertidas para código, listas numeradas o con viñetas	Excelente para comenzar
XML	Encapsula secciones con precisión, permite metadatos y anidación	Muy bueno, mejor adherencia
JSON	Útil en contextos de codificación, altamente estructurado	Bueno pero más detallado

Criterio: Utiliza el formato que proporcionará información clara y destacará en el modelo según tu contexto específico.

Advertencias Importantes

Ten en cuenta estas observaciones al trabajar con GPT-4.1:

Resistencia a respuestas extensas

Puede resistirse a generar resultados muy largos y repetitivos

Llamadas a herramientas paralelas

Casos raros de llamadas incorrectas; considera establecer parallel_tool_calls en falso

Experiencia mejorada

A pesar de estos puntos, ofrece una experiencia significativamente mejorada sobre versiones anteriores

Experimentación y ajuste son clave

Generación y Aplicación de Diferencias de Archivos

GPT-4.1 ofrece capacidades de diffs sustancialmente mejoradas. Uso recomendado:

Formato V4A diff

%%bash
apply_patch <<"EOF"
*** Begin Patch
*** Update File: pygorithm/searching/binary_search.py
@@ class BaseClass
@@     def search():
-          pass
+          raise NotImplementedError()

@@ class Subclass
@@     def search():
-          pass
+          raise NotImplementedError()

*** End Patch
EOF
          

Características: Este formato no utiliza números de línea ya que el contexto es suficiente para identificar el código de manera única.

Otros Formatos de Diferencias Efectivas

Si deseas intentar otros formatos, estas alternativas tuvieron altos índices de éxito:

SEARCH/REPLACE

path/to/file.py
```
>>>>>>> SEARCH
def search():
    pass
=======
def search():
   raise NotImplementedError()
<<<<<<< REPLACE
```
              

PSEUDO-XML

path/to/file.py

def search():
    pass

def search():
   raise NotImplementedError()

Aspectos clave: No utilizan números de línea y proporcionan tanto el código que se debe reemplazar como el código con el que reemplazarlo, con delimitadores claros.

Conclusión

GPT-4.1 representa un avance significativo con mejoras sustanciales en:

Capacidades de codificación

Seguimiento de instrucciones

Contexto extenso

Flujos de trabajo agénticos

Uso de herramientas

Razonamiento mejorado

Aprovecha estas capacidades para crear aplicaciones más potentes y eficientes