El «prompting» de cadena de pensamiento con pocos ejemplos (CoT) se utiliza en modelos de lenguaje grandes (LLM). En esta estrategia, el usuario proporciona algunos ejemplos de razonamiento paso a paso (llamados cadenas de pensamiento) para guiar al modelo hacia la generación de su justificación para nuevas preguntas. La idea clave es demostrar cómo pensar, no solo cuál es la respuesta.
Esta técnica impulsa el rendimiento del modelo en tareas de razonamiento complejas, como problemas de matemáticas, acertijos lógicos y preguntas y respuestas de varios pasos, donde un «prompt» simple y una respuesta directa podrían no ser suficientes.
¿Por qué se llama «con pocos ejemplos»?
En la terminología de la IA, «con pocos ejemplos» significa dar al modelo solo algunos ejemplos (generalmente de 2 a 5) para aprender un patrón. En lugar de entrenar un modelo desde cero, le mostramos algunos ejemplos resueltos dentro del «prompt» y esperamos que se generalice a un nuevo caso.
Por ejemplo, si se le plantea al modelo un problema de matemáticas, podríamos incluir tres ejemplos de cómo se resolvieron problemas similares, paso a paso, antes de pedirle que resuelva uno nuevo.
Esto difiere del «prompting» de cero ejemplos (sin ejemplos) y el ajuste fino (muchos ejemplos etiquetados durante las iteraciones de entrenamiento).
Ejemplos de cadena de pensamiento
Una cadena de pensamiento es una explicación escrita que desglosa los pasos de razonamiento necesarios para resolver un problema. En lugar de saltar directamente a una respuesta, se le muestra al modelo cómo razonar a través de cada parte del problema.
Por ejemplo:
- Pregunta: Si hay tres bolas rojas y cuatro bolas azules en una bolsa, y se sacan dos bolas al azar, ¿cuál es la probabilidad de que ambas sean azules?
- Cadena de pensamiento: Hay siete bolas en total. La probabilidad de que la primera bola sea azul es 4/7. Si la primera es azul, quedan tres bolas azules y seis bolas en total. Por lo tanto, la segunda extracción azul es 3/6. Por lo tanto, la probabilidad total es (4/7) (3/6) = 12/42 = 2/7.*
- Respuesta final: 2/7
Este formato entrena al modelo para imitar el razonamiento antes de responder, lo que mejora la precisión en tareas que requieren lógica o cálculo.
Cómo funciona el «prompting» CoT con pocos ejemplos
Un CoT con pocos ejemplos funciona incrustando de 2 a 5 pares de preguntas y respuestas de razonamiento en el «prompt» antes de plantear una nueva pregunta. El objetivo es establecer una plantilla o un precedente que el modelo pueda seguir.
La estructura se ve así:
P1: [pregunta]
A1: [razonamiento paso a paso]
[Respuesta]
P2: [pregunta]
A2: [razonamiento paso a paso]
[Respuesta]
P3: [nueva pregunta]
A3:
El modelo completa la tercera cadena de pensamiento y luego proporciona la respuesta. Estos ejemplos de razonamiento actúan como los «profesores» en contexto del modelo.
¿Por qué es eficaz el CoT con pocos ejemplos?
El CoT con pocos ejemplos es eficaz porque los modelos de lenguaje son buenos para completar patrones. Al ver algunos ejemplos de pensamiento paso a paso, infieren que también deberían razonar paso a paso para la nueva tarea. Esto imita cómo aprenden los humanos con ejemplos; cuando leemos algunos problemas de matemáticas resueltos, podemos resolver mejor otros nuevos.
Además, los LLM a menudo tienen dificultades con el razonamiento cuando se les pregunta directamente (p. ej., «¿Qué es 17 × 23?»), pero cuando se les guía a través de pasos intermedios, producen respuestas mejores y más precisas.
El CoT con pocos ejemplos impulsa el rendimiento del razonamiento sin volver a entrenar el modelo, lo que lo convierte en una herramienta poderosa de bajos recursos.
Tareas esenciales que se benefician del CoT con pocos ejemplos
La cadena de pensamiento con pocos ejemplos es especialmente útil para tareas que involucran:
- Razonamiento aritmético
- Acertijos lógicos
- Razonamiento de sentido común
- Manipulación simbólica
- Resolución de problemas de varios pasos
- Comprensión de lectura con inferencia
- Preguntas de causa y efecto
Por ejemplo, en las preguntas y respuestas de varios saltos, donde uno debe combinar hechos a través de múltiples oraciones o documentos, los «prompts» CoT ayudan al modelo a realizar un seguimiento de las ideas intermedias.
CoT con pocos ejemplos frente a CoT con cero ejemplos
El CoT con cero ejemplos es una variación donde el «prompt» no incluye ejemplos, pero termina con frases como «Pensemos paso a paso». Esta frase empuja al modelo a iniciar el razonamiento por sí mismo, incluso sin ejemplos de entrenamiento.
El CoT con cero ejemplos es útil cuando hay espacio limitado para ejemplos o cuando el modelo ya está bien entrenado en tareas de razonamiento. Sin embargo, el CoT con pocos ejemplos es generalmente más confiable para problemas complejos, especialmente cuando el patrón de razonamiento no es evidente.
Prácticas recomendadas para crear un «prompt» de cadena de pensamiento (CoT) con pocos ejemplos
Utilice un razonamiento claro y lógico
Cada ejemplo debe recorrer el proceso de resolución de problemas paso a paso, tal como lo haría un humano reflexivo. Evite saltos en la lógica o suposiciones inexplicables. La cadena de pensamiento debe ser transparente, ayudando al modelo a aprender cómo dividir los problemas en partes solubles.
Elija ejemplos similares a la tarea objetivo
Los «prompts» con pocos ejemplos funcionan mejor cuando los ejemplos proporcionados se parecen mucho al formato, el tema o el nivel de dificultad de la consulta objetivo. Esto ayuda al modelo a generalizar el patrón de razonamiento de manera más efectiva a problemas nuevos pero similares.
Equilibre la longitud y la simplicidad
Si bien la explicación debe ser completa, también debe ser fácil de seguir. Evite el uso de un lenguaje demasiado técnico o una redacción enrevesada. Un buen ejemplo de CoT es rico en lógica, pero está escrito en términos claros y concisos para evitar abrumar al modelo o alcanzar los límites de «tokens».
Resalte la respuesta por separado
Marque la respuesta final de manera distinta, como usar texto en negrita, un salto de línea o etiquetarla con «Respuesta:». Esto facilita que el modelo aprenda dónde termina el razonamiento y dónde comienza la conclusión, mejorando su capacidad para producir respuestas de manera consistente.
Utilice un lenguaje natural
Escriba el razonamiento en inglés natural y conversacional a menos que la tarea requiera un lenguaje formal como código o ecuaciones. Esto ayuda a alinear con cómo se entrenan los LLM y mejora la comprensión y la calidad de la salida.
Desafíos y limitaciones del CoT con pocos ejemplos
Limitaciones de longitud del «prompt»
Los modelos de lenguaje tienen límites de «tokens» (p. ej., 4K, 8K o 32K «tokens»), por lo que incluir múltiples ejemplos detallados de CoT puede consumir espacio rápidamente. Esto restringe la cantidad de ejemplos que puede usar o cuán complejos pueden ser, especialmente en contextos más grandes o aplicaciones en tiempo real.
Sensibilidad del «prompt»
El rendimiento de CoT puede variar significativamente según pequeños cambios en el formato del «prompt», el orden de los ejemplos o incluso la elección de palabras. Un «prompt» que funciona bien un día podría tener un rendimiento inferior después de un pequeño ajuste, lo que hace que la consistencia y la optimización sean un desafío constante.=
Transferibilidad de dominio
Los estilos de razonamiento que funcionan en un dominio no siempre se generalizan bien a otros. Por ejemplo, la lógica paso a paso aprendida de los problemas de matemáticas puede no transferirse de manera efectiva a tareas en derecho, medicina o razonamiento de sentido común, lo que limita el alcance de los ejemplos reutilizables.
Sobrecarga de computación
Los «prompts» CoT con pocos ejemplos son más largos y complejos que los «prompts» estándar, lo que significa que los modelos tardan más en procesarlos. Esto aumenta los costos computacionales y puede conducir a tiempos de respuesta más lentos, especialmente a escala.
Falta de verificación
Incluso cuando el modelo imita la estructura de razonamiento, aún podría cometer errores si la lógica es defectuosa en uno de los ejemplos o si malinterpreta la pregunta. CoT ayuda a estructurar el pensamiento, pero no garantiza la corrección, especialmente en casos límite o consultas ambiguas.
CoT con pocos ejemplos en investigación y práctica
El «prompting» CoT con pocos ejemplos se formalizó en un artículo de investigación de 2022 de investigadores de Google titulado Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. El estudio demostró que agregar ejemplos de CoT mejoró drásticamente el rendimiento del razonamiento, especialmente en modelos grandes (como PaLM o GPT-3 con más de 100B parámetros).
Desde entonces, se ha adoptado ampliamente en:
- Investigación académica de PNL
- Desarrollo de productos de IA (p. ej., tutores de IA, solucionadores de matemáticas)
- Estrategias de ingeniería de «prompts» para modelos generativos
- Canalizaciones de autoevaluación para la validación de respuestas
Continúa influyendo en cómo los desarrolladores diseñan «prompts» para tareas complejas.
CoT con pocos ejemplos frente a ajuste fino
El CoT con pocos ejemplos logra algunos de los beneficios del ajuste fino, como un mejor razonamiento específico de la tarea, sin necesidad de acceder a los pesos del modelo o a los recursos informáticos. El ajuste fino implica ajustar los parámetros internos del modelo utilizando un conjunto de datos de ejemplos, mientras que el CoT con pocos ejemplos introduce esos ejemplos en el «prompt» de entrada.
Si bien el ajuste fino puede resultar en un rendimiento más consistente y una mejor generalización en todas las entradas, el CoT con pocos ejemplos es más rápido, más económico y no requiere una infraestructura especial. Es ideal para equipos que utilizan API comerciales o que trabajan dentro de entornos de solo inferencia.
Futuro del «prompting» de cadena de pensamiento con pocos ejemplos
A medida que los modelos de lenguaje se vuelven más poderosos y las ventanas de contexto se expanden, el CoT con pocos ejemplos se volverá aún más práctico y efectivo. Las mejoras futuras pueden incluir:
- «Prompting» CoT dinámico: Sistemas de IA que seleccionan los mejores ejemplos automáticamente, según la tarea actual.
- CoT multimodal: Combinación de razonamiento a través de texto, imágenes y audio para capacidades cognitivas más ricas.
- Autocrítica y autocorrección: Las cadenas de pensamiento incluyen puntos de control donde el modelo revisa y corrige su razonamiento.=
- Ajuste fino basado en instrucciones: Modelos de entrenamiento con patrones CoT para que se generalicen sin necesidad de «prompts» completos con pocos ejemplos cada vez.
En general, el CoT con pocos ejemplos está dando forma al futuro de los sistemas de IA interactivos y conscientes del razonamiento.
El «prompting» de cadena de pensamiento con pocos ejemplos es una técnica simple pero poderosa para enseñar a los modelos de lenguaje cómo razonar paso a paso mostrándoles algunos ejemplos resueltos. Al imitar el pensamiento lógico humano, este enfoque ayuda a los modelos a resolver problemas que de otro modo no podrían abordar con respuestas simples y directas.
Cierra la brecha entre el reconocimiento de patrones y el verdadero razonamiento de varios pasos, lo que la convierte en una de las herramientas más efectivas en el conjunto de herramientas del ingeniero de «prompts». Ya sea que esté construyendo herramientas educativas, asistentes inteligentes o sistemas lógicos complejos, el CoT con pocos ejemplos puede mejorar significativamente cómo piensa su IA antes de hablar.