Ingeniería de prompts y LLMs
Optimización de la interacción con modelos generativos para extraer el máximo rendimiento.
¿De qué se trata?
La ingeniería de prompts es el arte y ciencia de comunicarse efectivamente con modelos de lenguaje. Un buen prompt puede transformar una respuesta mediocre en una excelente, y un prompt mal diseñado puede hacer que el modelo más potente falle.
¿Por qué importa?
Con la democratización de los LLMs, saber escribir buenos prompts se ha convertido en una habilidad transversal. Para los profesionales de PLN, es fundamental tanto para desarrollo como para evaluar las capacidades reales de los modelos.
Perfiles relacionados
Consejos clave
- •Sé específico: los modelos responden mejor a instrucciones claras.
- •Experimenta con el formato de salida: JSON, markdown, listas...
- •Usa delimitadores claros para separar instrucciones de contenido.
- •Itera: el primer prompt rara vez es el mejor.
Habilidades específicas
Técnicas básicas: Zero-shot y Few-shot
Prompting sin ejemplos (zero-shot) y con pocos ejemplos (few-shot) para tareas de clasificación, extracción y generación.
Recursos para esta habilidad
Guía Detallada
Prompting sin ejemplos (Zero-shot)
Obtener resultados útiles del modelo sin proporcionar ejemplos, solo con instrucciones claras
Historia y contexto
GPT-3 (2020) demostró que los LLMs pueden realizar tareas complejas sin ejemplos explícitos, solo con instrucciones en lenguaje natural. Esto democratizó el acceso a IA generativa.
Ventajas
- ●Deployment instantáneo sin necesidad de ejemplos
- ●Máxima flexibilidad para explorar capacidades
- ●No consume espacio del contexto con ejemplos
Limitaciones
- ●Menor precisión que few-shot en tareas específicas
- ●No captura convenciones de formato particulares
- ●Requiere instrucciones muy claras y detalladas
Casos de uso principales
Prompting con pocos ejemplos (Few-shot)
Guiar al modelo proporcionando 2-10 ejemplos de entrada-salida que demuestran el comportamiento deseado
Historia y contexto
Técnica central de GPT-3 que permitió adaptación sin fine-tuning. El paper 'Language Models are Few-Shot Learners' (2020) mostró que con solo 10-100 ejemplos se podía alcanzar rendimiento competitivo.
Ventajas
- ●Mejora significativa de precisión vs zero-shot (típicamente +15-30%)
- ●Permite enseñar formatos de salida específicos
- ●Adaptable a dominios especializados sin reentrenamiento
Limitaciones
- ●Consume contexto limitado (cada ejemplo usa tokens)
- ●Selección de ejemplos crítica (ejemplos malos perjudican)
- ●No escala a tareas que requieren miles de patrones
Casos de uso principales
Few-shot dinámico (Adaptativo)
Seleccionar ejemplos relevantes dinámicamente según la entrada, en lugar de usar ejemplos fijos
Historia y contexto
Evolución reciente (2023-2024) que combina embeddings semánticos con few-shot learning para seleccionar los ejemplos más informativos por consulta.
Ventajas
- ●Mejora +5-10% accuracy vs few-shot estático
- ●Cada input recibe los ejemplos más relevantes
- ●Aprovecha mejor el espacio del contexto
Limitaciones
- ●Requiere base de datos de ejemplos + embeddings
- ●Añade latencia por búsqueda de similitud (+100-200ms)
- ●Más complejo de implementar y mantener
Técnicas de razonamiento: CoT, Auto-consistencia y Tree of Thoughts
Chain-of-Thought, auto-consistencia y Tree of Thoughts para problemas que requieren razonamiento complejo paso a paso.
Recursos para esta habilidad
Guía Detallada
Cadena de pensamiento (Chain-of-thought)
Guiar al modelo a razonar paso a paso explícitamente antes de dar una respuesta final
Historia y contexto
Introducida por Google Research en 2022, revolucionó la capacidad de razonamiento de LLMs. Simple frase 'Let's think step by step' mejora accuracy en problemas matemáticos de 17% a 78%.
Ventajas
- ●Mejora dramatica en razonamiento: +35-50% en matemáticas
- ● transparency: puedes ver el proceso de razonamiento
- ●Reduce alucinaciones al forzar lógica explícita
- ●Funciona mejor con modelos grandes (>10B parámetros)
Limitaciones
- ●Aumenta uso de tokens significativamente (2-5x más)
- ●No siempre útil para tar eas simples o directas
- ●Puede generar razonamiento incorrecto pero convincente
- ●Latencia mayor por generar más texto
Casos de uso principales
Auto-consistencia (Self-consistency)
Generar múltiples cadenas de razonamiento y seleccionar la respuesta más frecuente mediante votación
Historia y contexto
Propuesta por Google en 2022 como mejora de CoT. Insight: aunque un razonamiento individual puede fallar, la respuesta correcta tiende a aparecer más frecuentemente en múltiples intentos.
Ventajas
- ●Mejora robustez: +8-15% accuracy sobre CoT simple
- ●Reduce errores aleatorios y alucinaciones
- ●No requiere fine-tuning ni datos adicionales
- ●Funciona especialmente bien en razonamiento lógico
Limitaciones
- ●Coste multiplicado: 5-10x más tokens que CoT simple
- ●Latencia significativa (puede tardar 10-30 segundos)
- ●Requiere API con parámetro temperature > 0
- ●No garantiza corrección si todos los caminos fallan
Árbol de pensamientos (Tree of Thoughts)
Explorar múltiples caminos de razonamiento en paralelo con evaluación y backtracking
Historia y contexto
Princeton/Google DeepMind 2023. Inspirado en algoritmos de búsqueda en árbol (MCTS). Permite al LLM 'pensar hacia adelante' y 'retroceder' como humanos resolviendo problemas complejos.
Ventajas
- ●Resuelve problemas que CoT no puede (74% vs 4% en Game of 24)
- ●Explora creativamente múltiples estrategias
- ●Puede auto-evaluar y corregir caminos incorrectos
- ●Ideal para planificación y resolución de puzzles
Limitaciones
- ●Extremadamente costoso: 20-100 llamadas al LLM por problema
- ●Complejo de implementar (requiere lógica de búsqueda)
- ●Latencia muy alta (minutos para problemas complejos)
- ●Solo vale la pena para problemas muy difíciles
Técnicas de conocimiento: RAG y prompts de conocimiento generado
Retrieval Augmented Generation para incluir conocimiento externo y generación de conocimiento intermedio.
Recursos para esta habilidad
Guía Detallada
Generación aumentada por recuperación (RAG)
Combinar la capacidad generativa del LLM con conocimiento externo recuperado dinámicamente
Historia y contexto
Propuesto por Facebook AI (2020). Resuelve el problema fundamental de LLMs: conocimiento estático y limitado. RAG permite actualizar conocimiento sin reentrenar, crucial para aplicaciones empresariales.
Ventajas
- ●Elimina necesidad de reentrenamiento para actualizar conocimiento
- ●Reduce alucinaciones drásticamente (de 38% a 6%)
- ●Permite citar fuentes y justificar respuestas
- ●Escalable: añadir documentos no requiere cambiar modelo
Limitaciones
- ●Añade latencia (+200-500ms por retrieval)
- ●Requiere infraestructura adicional (BD vectorial)
- ●Calidad depende del retrieval (garbage in, garbage out)
- ●Consume más contexto al incluir documentos
Casos de uso principales
RAG híbrido (Denso + disperso)
Combinar búsqueda semántica (embeddings) con búsqueda por keywords (BM25) para retrieval más robusto
Historia y contexto
Evolución reciente (2023-2024) que reconoce limitaciones de embeddings puros: fallan en términos técnicos exactos, acrónimos, nombres propios.
Ventajas
- ●Mejora recall: 78% (solo embeddings) → 86% (híbrido)
- ●Captura tanto significado semántico como matches exactos
- ●Robusto ante queries con terminología muy específica
- ●Combina fortalezas de ambos enfoques
Limitaciones
- ●Más complejo de implementar y mantener
- ●Requiere dos sistemas de indexación
- ●Latencia ligeramente mayor (+50-100ms)
- ●Necesita estrategia de fusión de resultados
RAG con fragmentación inteligente
Dividir documentos en fragmentos óptimos que preserven contexto semántico
Historia y contexto
Naive chunking (dividir cada N tokens) pierde coherencia. Chunking semántico (2023-2024) divide por temas, preservando unidades de significado.
Ventajas
- ●Chunks más coherentes y auto-contenidos
- ●Mejor recall al no cortar información relevante
- ●Facilita que LLM entienda el contexto recuperado
Limitaciones
- ●Más costoso computacionalmente
- ●Chunks de tamaño variable (complica gestión)
- ●Requiere modelos para detectar límites semánticos
Técnicas de herramientas y acciones: ReAct, Tool-use y PAL
ReAct, uso automático de herramientas y Program-Aided Language Models para tareas que requieren acciones o cálculos.
Recursos para esta habilidad
Guía Detallada
ReAct (Razonar + Actuar)
Intercalar pasos de razonamiento (Thought) con acciones externas (Action) para resolver tareas dinámicas
Historia y contexto
Google Research (2022). Unificó dos paradigmas: razonamiento verbal (como CoT) y toma de decisiones/acciones. Permite a los LLMs interactuar con el mundo real.
Ventajas
- ●Reduce alucinaciones al buscar datos en fuentes reales
- ●Traza de ejecución visible y debugging sencillo
- ●Permite recuperar información actualizada (vs knowledge cutoff)
- ●Sinergia: pensar ayuda a actuar, y actuar ayuda a pensar
Limitaciones
- ●Latencia alta por múltiples llamadas secuenciales
- ●Propagación de errores: una mala acción afecta todo el chain
- ●Context window se llena rápido con observaciones largas
- ●Requiere acceso seguro a herramientas
Casos de uso principales
Uso de herramientas / Llamada a funciones
Generar salidas estructuradas (JSON) que permitan ejecutar funciones de software deterministicas
Historia y contexto
Popularizado por OpenAI (2023) como 'Function Calling'. Transformó los LLMs de generadores de texto a controladores de API fiables.
Ventajas
- ●Integración nativa y fiable con sistemas software
- ●Formato de salida garantizado (JSON Schema)
- ●Elimina la necesidad de parsers complejos (Regex)
- ●Permite al modelo pedir múltiples herramientas en paralelo
Limitaciones
- ●Alucinación de parámetros (inventar argumentos)
- ●Confusión cuando hay muchas herramientas disponibles (>10-20)
- ●Riesgo de seguridad (Prompt Injection → Ejecución de código)
- ●Dependencia del ajuste fino del proveedor (OpenAI/Anthropic)
Casos de uso principales
PAL (Modelos asistidos por programas)
Delegar el razonamiento lógico y matemático a un intérprete de código (Python) en lugar de simularlo
Historia y contexto
CMU/Google (2022). Observación clave: Los LLMs son mejores escribiendo código correcto que realizando cálculos aritméticos mentalmente.
Ventajas
- ●Precisión matemática perfecta (si el código es correcto)
- ●Maneja lógica algorítmica compleja (bucles, condiciones)
- ●Resultados reproducibles y verificables
- ●Desacopla razonamiento (LLM) de computación (CPU)
Limitaciones
- ●Requiere entorno de ejecución de código (Sandbox seguro)
- ●Riesgo de seguridad alto (ejecución de código arbitrario)
- ●Overhead de infraestructura para ejecutar Python
- ●Si el modelo no sabe programar la solución, falla
Casos de uso principales
Técnicas de composición: Prompt chaining y meta-prompting
Chaining de prompts secuenciales, meta-prompting y técnicas de composición para tareas complejas.
Recursos para esta habilidad
Guía Detallada
Encadenamiento de prompts (Chaining)
Descomponer una tarea compleja en una secuencia lineal de sub-tareas, usando la salida de una como entrada de la siguiente
Historia y contexto
Wu et al. (2022). Surge como solución a las limitaciones de contexto y capacidad de razonamiento en single-turn prompting.
Ventajas
- ●Supera límites de ventana de contexto
- ●Permite verificar y corregir pasos intermedios (observabilidad)
- ●Posibilita usar modelos más pequeños y baratos para sub-tareas simples
- ●Mejora la calidad final al reducir la carga cognitiva del modelo
Limitaciones
- ●Latencia acumulada (suma de tiempos de cada llamada)
- ●Propagación de errores (error en paso 1 afecta a paso 2)
- ●Coste lineal por número de pasos
- ●Complejidad de orquestación
Casos de uso principales
Meta-prompting
Utilizar un LLM para generar, mejorar o evaluar prompts para otro LLM (Prompt Engineering Automatizado)
Historia y contexto
Paper 'Large Language Models are Human-Level Prompt Engineers' (2022). Demostró que los LLMs pueden optimizar sus propias instrucciones.
Ventajas
- ●Automatiza la optimización de prompts (ahorro de tiempo)
- ●Descubre estrategias de prompting contraintuitivas para humanos
- ●Adapta prompts dinámicamente según la tarea
- ●Estandariza la calidad de los prompts en un equipo
Limitaciones
- ●Requiere modelos potentes (y caros) para el meta-reasoning
- ●Puede generar prompts verbosos o extraños
- ●Difícil de depurar por qué eligió ciertas instrucciones
- ●Riesgo de sobre-optimización (overfitting) a pocos ejemplos
Casos de uso principales
De menor a mayor (Least-to-Most)
Descomponer un problema en sub-problemas más simples y resolverlos secuencialmente, usando respuestas anteriores como contexto
Historia y contexto
Google Research (2022). Inspirado en métodos educativos y programación dinámica. Clave para generalización composicional (resolver problemas más difíciles que los vistos en training).
Ventajas
- ●Resuelve problemas que requieren composición lógica compleja
- ●Traza de razonamiento muy clara y educativa
- ●Permite al modelo manejar inputs más largos de lo habitual
- ●Alta precisión en tareas simbólicas y matemáticas
Limitaciones
- ●Requiere que el problema sea descomponible
- ●Múltiples llamadas al LLM (latencia y coste)
- ●Necesita diseñar la estrategia de descomposición para cada tipo de tarea
Casos de uso principales
Técnicas de optimización: APE, prompt activo y estímulo direccional
Automatic Prompt Engineering, active prompting y directional stimulus prompting para optimización automática.
Recursos para esta habilidad
Guía Detallada
Ingeniería de prompts automática (APE)
Tratar la generación de prompts como un problema de optimización programática, usando LLMs para escribir prompts para otros LLMs
Historia y contexto
Paper de Zhou et al. (2022). Demostraron que los prompts generados por LLMs a menudo superan a los escritos por humanos.
Ventajas
- ●Elimina el proceso manual de prueba y error
- ●Optimización basada en métricas objetivas (accuracy en validación)
- ●Genera múltiples variantes creativas
- ●Escala a tareas nuevas rápidamente
Limitaciones
- ●Costoso (requiere muchas llamadas para generación y validación)
- ●Los prompts generados pueden ser difíciles de interpretar
- ●Requiere un dataset de validación de alta calidad (input/output)
- ●Puede hacer 'overfitting' al dataset de validación
Casos de uso principales
Prompting activo
Seleccionar dinámicamente los ejemplos más informativos para few-shot learning basándose en la incertidumbre del modelo
Historia y contexto
Diao et al. (2023). Inspirado en Active Learning tradicional. En lugar de seleccionar ejemplos aleatorios para el prompt, selecciona aquellos donde el modelo duda más.
Ventajas
- ●Maximiza el rendimiento con el mínimo número de ejemplos
- ●Reduce coste de anotación humana (solo anotas lo difícil)
- ●Mejora robustez en fronteras de decisión complejas
- ●Más eficiente que añadir ejemplos aleatoriamente
Limitaciones
- ●Requiere calcular incertidumbre (complejo en APIs caja negra)
- ●Añade paso de pre-procesamiento
- ●Necesita un pool grande de datos sin etiquetar
- ●Depende de la calibración de probabilidad del modelo
Casos de uso principales
Prompting de estímulo direccional
Guiar el proceso de generación del modelo proporcionando pistas o palabras clave específicas (estímulos) en el prompt
Historia y contexto
Li et al. (2023). Propone usar un modelo auxiliar pequeño para generar 'pistas' que guíen al LLM grande hacia la respuesta deseada.
Ventajas
- ●Control más fino sobre el contenido generado
- ●Mejora la fidelidad a información clave (ej: resumen)
- ●Reduce alucinaciones al restringir el espacio de búsqueda
- ●Combina eficiencia de modelos pequeños (generan pistas) con calidad de grandes
Limitaciones
- ●Requiere entrenar/ajustar modelo de estímulos
- ●Añade complejidad a la arquitectura (2 modelos)
- ●Difícil definir qué constituye un buen 'estímulo'
- ●No es puramente prompt engineering (requiere fine-tuning auxiliar)
Casos de uso principales
Técnicas avanzadas: Reflexion y prompts de grafo
Reflexion para auto-mejora iterativa y prompts de grafo para razonamiento sobre estructuras relacionales.
Reflexion
es un framework donde el agente ejecuta una tarea, recibe feedback sobre su desempeño, reflexiona sobre qué salió mal y reintenta con una nueva estrategia aprendida. Ciclo: Act → Evaluate → Reflect → Act again.
Prompts de grafo
estructuran información relacional como grafos (nodos y aristas) en el prompt, permitiendo al modelo razonar sobre conexiones complejas.
Ejemplos prácticos
Reflexion para debugging de código
Iteración 1: Generar código → ejecutar tests → 3/10 tests pasan. Reflexion: "Los tests fallan porque no manejé el caso de listas vacías. Debo añadir validación al inicio." Iteración 2: Regenerar código con insight → 8/10 pasan. Iteración 3: reflexión sobre casos edge → 10/10 pasan. Resultado: HumanEval benchmark pasa de 67% (sin reflexion) a 88% (con reflexion, max 3 iteraciones).
Escenario: Asistente de programación que aprende de sus errores en tests para generar código correcto.
Prompts de grafo para análisis de redes sociales
Representar red de influencia como grafo en el prompt: "Nodos: [usuarios], Aristas: [relaciones]. Usuario A sigue a B, C. Usuario B sigue a D. ¿Cuál es el usuario con mayor influencia indirecta?" Incluir el grafo permite al modelo razonar sobre transitividad y centralidad. Accuracy en preguntas de conectividad: 79% con grafo explícito vs 52% con descripción textual lineal.
Escenario: Análisis de influencers y propagación de información en redes sociales.
Reflexion para mejora de respuestas de chatbot
Usuario: pregunta → Bot: respuesta → Usuario: feedback negativo → Reflexion interna: "Mi respuesta fue demasiado técnica y no respondí la pregunta implícita sobre [X]. Debo reformular en lenguaje simple y abordar [X]" → Bot: respuesta mejorada. CSAT mejora de 3.4/5 a 4.2/5 tras habilitar reflexion en 20% de interacciones con feedback negativo.
Escenario: Chatbot de servicio al cliente que aprende de feedback de usuarios insatisfechos.
Recursos para esta habilidad
Prompting multimodal
Chain-of-Thought multimodal y prompting para modelos visión-lenguaje.
Guía Detallada
Cadena de pensamiento multimodal
Guiar al modelo para que razone paso a paso considerando información visual y textual simultáneamente
Historia y contexto
Evolución natural de CoT aplicado a modelos Vision-Language (GPT-4V, Gemini 1.5). Fundamental para tareas de razonamiento visual complejo (VQA).
Ventajas
- ●Mejora la precision en preguntas sobre imágenes complejas
- ●Permite descomponer problemas visuales (contar objetos, analizar relaciones)
- ●Transparencia en cómo el modelo interpreta la imagen
- ●Combina OCR (texto en imagen) con razonamiento lógico
Limitaciones
- ●Mayor latencia por procesamiento de tokens de imagen
- ●Alucinaciones visuales (ver cosas que no existen)
- ●Sensible a la calidad/resolución de la imagen
- ●Ventana de contexto limitada por número de imágenes
Casos de uso principales
Prompting con marcadores (SoM)
Mejorar la referencia espacial superponiendo marcadores numéricos o etiquetas en la imagen antes de enviarla al modelo
Historia y contexto
Microsoft Research (2023). Soluciona el problema de 'grounding' (referencia precisa) en modelos multimodales que fallaban al señalar coordenadas exactas.
Ventajas
- ●Elimina la ambigüedad al referirse a objetos específicos
- ●Mejora drásticamente la capacidad de contar y localizar
- ●Facilita la interacción usuario-modelo ('¿qué es el objeto #3?')
- ●Reduce alucinaciones espaciales
Limitaciones
- ●Requiere pre-procesamiento de la imagen (algoritmo de segmentación como SAM)
- ●Añade ruido visual a la imagen original
- ●El modelo debe entender el concepto de marcadores superpuestos
- ●Dependencia de la calidad del segmentador inicial
Casos de uso principales
Prompting de video y razonamiento temporal
Analizar secuencias de frames para entender acciones, causalidad y cambios temporales
Historia y contexto
Con Gemini 1.5 Pro y GPT-4o, la ventana de contexto creció para permitir subir videos enteros (miles de frames) como input.
Ventajas
- ●Comprensión de dinámicas temporales (antes/después)
- ●Resumen de eventos largos en segundos
- ●Búsqueda semántica dentro de videos ('¿en qué minuto sale el perro?')
- ●Análisis de movimiento y acción
Limitaciones
- ●Coste computacional y de tokens muy elevado
- ●Pérdida de detalles finos por compresión/sampling de frames
- ●Dificultad para mantener coherencia en videos muy largos (>1h)
- ●Latencia alta en procesamiento
Casos de uso principales
Validación cuantitativa y cualitativa
Métodos de validación de prompts mediante métricas automáticas y evaluación humana.
Recursos para esta habilidad
Guía Detallada
Validación cuantitativa
Medir el rendimiento de los prompts usando métricas numéricas objetivas y reproducibles
Historia y contexto
Heredado de PLN tradicional (BLEU para traducción). En la era LLM, ha evolucionado hacia métricas de similitud semántica (Embeddings) y exactitud factual.
Ventajas
- ●Permite evaluación a gran escala (miles de ejemplos)
- ●Detección rápida de regresiones (si un cambio rompe algo)
- ●Comparación objetiva entre modelos o prompts
- ●Integrable en pipelines de CI/CD (LLMOps)
Limitaciones
- ●No captura matices como creatividad o tono
- ●Métricas de n-gramas (ROUGE) correlacionan mal con calidad humana
- ●Requiere 'Ground Truth' (respuestas correctas de referencia)
- ●Puede dar falsos negativos (respuesta correcta pero fraseada diferente)
Casos de uso principales
LLM como juez (LLM-as-a-Judge)
Usar un LLM potente (ej: GPT-4) para evaluar las respuestas de otro LLM según criterios definidos
Historia y contexto
Paper 'Judging LLM-as-a-Judge' (2023). Demostró que GPT-4 tiene una correlación >80% con evaluadores humanos expertos.
Ventajas
- ●Evalúa aspectos subjetivos (coherencia, utilidad, seguridad)
- ●Más barato y rápido que evaluación humana
- ●No requiere respuestas de referencia exactas (reference-free)
- ●Puede dar explicaciones detalladas de su evaluación
Limitaciones
- ●Sesgo del juez (favoritismo hacia sus propias respuestas)
- ●Coste computacional (multiplica x2 las llamadas)
- ●El juez puede fallar en detectar errores sutiles de razonamiento
- ●Dependencia de la calidad del prompt del juez
Casos de uso principales
Evaluación Humana y A/B Testing
Obtener veredicto final sobre la calidad mediante juicio humano, ya sea expertos o usuarios finales en producción
Historia y contexto
El estándar de oro (Gold Standard) desde siempre. RLHF (Reinforcement Learning from Human Feedback) se basa enteramente en esto.
Ventajas
- ●Única forma real de medir 'satisfacción de usuario'
- ●Captura matices culturales, humor y contexto implícito
- ●Genera datos de entrenamiento para futuros modelos (RLHF)
- ●Detecta errores que pasan filtros automáticos
Limitaciones
- ●Extremadamente lento y costoso
- ●Subjetivo y poco escalable
- ●Baja concordancia entre anotadores (inter-annotator agreement)
- ●Difícil de reproducir exactamente