Competencia 04

Ingeniería de prompts y LLMs

Optimización de la interacción con modelos generativos para extraer el máximo rendimiento.

En esta página

¿De qué se trata?

La ingeniería de prompts es el arte y ciencia de comunicarse efectivamente con modelos de lenguaje. Un buen prompt puede transformar una respuesta mediocre en una excelente, y un prompt mal diseñado puede hacer que el modelo más potente falle.

¿Por qué importa?

Con la democratización de los LLMs, saber escribir buenos prompts se ha convertido en una habilidad transversal. Para los profesionales de PLN, es fundamental tanto para desarrollo como para evaluar las capacidades reales de los modelos.

Perfiles relacionados

Ingeniero de PLN

Consejos clave

•Sé específico: los modelos responden mejor a instrucciones claras.
•Experimenta con el formato de salida: JSON, markdown, listas...
•Usa delimitadores claros para separar instrucciones de contenido.
•Itera: el primer prompt rara vez es el mejor.

Habilidades específicas

Técnicas básicas: Zero-shot y Few-shot

Prompting sin ejemplos (zero-shot) y con pocos ejemplos (few-shot) para tareas de clasificación, extracción y generación.

Recursos para esta habilidad

OpenAI Playgroundherramienta

Language Models are Few-Shot Learners (paper GPT-3)articulo

Tarea PLN: clasificación de textosdocumentacion

Guía Detallada

Prompting sin ejemplos (Zero-shot)

Obtener resultados útiles del modelo sin proporcionar ejemplos, solo con instrucciones claras

Historia y contexto

GPT-3 (2020) demostró que los LLMs pueden realizar tareas complejas sin ejemplos explícitos, solo con instrucciones en lenguaje natural. Esto democratizó el acceso a IA generativa.

Ventajas

●Deployment instantáneo sin necesidad de ejemplos
●Máxima flexibilidad para explorar capacidades
●No consume espacio del contexto con ejemplos

Limitaciones

●Menor precisión que few-shot en tareas específicas
●No captura convenciones de formato particulares
●Requiere instrucciones muy claras y detalladas

Casos de uso principales

→Prototipado rápido y exploración

→Tareas genéricas bien definidas

→Cuando no hay ejemplos disponibles

Prompting con pocos ejemplos (Few-shot)

Guiar al modelo proporcionando 2-10 ejemplos de entrada-salida que demuestran el comportamiento deseado

Historia y contexto

Técnica central de GPT-3 que permitió adaptación sin fine-tuning. El paper 'Language Models are Few-Shot Learners' (2020) mostró que con solo 10-100 ejemplos se podía alcanzar rendimiento competitivo.

Ventajas

●Mejora significativa de precisión vs zero-shot (típicamente +15-30%)
●Permite enseñar formatos de salida específicos
●Adaptable a dominios especializados sin reentrenamiento

Limitaciones

●Consume contexto limitado (cada ejemplo usa tokens)
●Selección de ejemplos crítica (ejemplos malos perjudican)
●No escala a tareas que requieren miles de patrones

Casos de uso principales

→Clasificación con categorías específicas del dominio

→Extracción de información con formato estructurado

→Generación con tono o estilo particular

Few-shot dinámico (Adaptativo)

Seleccionar ejemplos relevantes dinámicamente según la entrada, en lugar de usar ejemplos fijos

Historia y contexto

Evolución reciente (2023-2024) que combina embeddings semánticos con few-shot learning para seleccionar los ejemplos más informativos por consulta.

Ventajas

●Mejora +5-10% accuracy vs few-shot estático
●Cada input recibe los ejemplos más relevantes
●Aprovecha mejor el espacio del contexto

Limitaciones

●Requiere base de datos de ejemplos + embeddings
●Añade latencia por búsqueda de similitud (+100-200ms)
●Más complejo de implementar y mantener

Técnicas de razonamiento: CoT, Auto-consistencia y Tree of Thoughts

Chain-of-Thought, auto-consistencia y Tree of Thoughts para problemas que requieren razonamiento complejo paso a paso.

Recursos para esta habilidad

Chain-of-Thought Prompting Paperarticulo

Self-Consistency Paperarticulo

Tree of Thoughts Paperarticulo

Guía Detallada

Cadena de pensamiento (Chain-of-thought)

Guiar al modelo a razonar paso a paso explícitamente antes de dar una respuesta final

Historia y contexto

Introducida por Google Research en 2022, revolucionó la capacidad de razonamiento de LLMs. Simple frase 'Let's think step by step' mejora accuracy en problemas matemáticos de 17% a 78%.

Ventajas

●Mejora dramatica en razonamiento: +35-50% en matemáticas
● transparency: puedes ver el proceso de razonamiento
●Reduce alucinaciones al forzar lógica explícita
●Funciona mejor con modelos grandes (>10B parámetros)

Limitaciones

●Aumenta uso de tokens significativamente (2-5x más)
●No siempre útil para tar eas simples o directas
●Puede generar razonamiento incorrecto pero convincente
●Latencia mayor por generar más texto

Casos de uso principales

→Problemas matemáticos y aritméticos

→Razonamiento lógico y deductivo

→Decisiones multi-criterio complejas

→Explicación de respuestas para usuarios

Auto-consistencia (Self-consistency)

Generar múltiples cadenas de razonamiento y seleccionar la respuesta más frecuente mediante votación

Historia y contexto

Propuesta por Google en 2022 como mejora de CoT. Insight: aunque un razonamiento individual puede fallar, la respuesta correcta tiende a aparecer más frecuentemente en múltiples intentos.

Ventajas

●Mejora robustez: +8-15% accuracy sobre CoT simple
●Reduce errores aleatorios y alucinaciones
●No requiere fine-tuning ni datos adicionales
●Funciona especialmente bien en razonamiento lógico

Limitaciones

●Coste multiplicado: 5-10x más tokens que CoT simple
●Latencia significativa (puede tardar 10-30 segundos)
●Requiere API con parámetro temperature > 0
●No garantiza corrección si todos los caminos fallan

Árbol de pensamientos (Tree of Thoughts)

Explorar múltiples caminos de razonamiento en paralelo con evaluación y backtracking

Historia y contexto

Princeton/Google DeepMind 2023. Inspirado en algoritmos de búsqueda en árbol (MCTS). Permite al LLM 'pensar hacia adelante' y 'retroceder' como humanos resolviendo problemas complejos.

Ventajas

●Resuelve problemas que CoT no puede (74% vs 4% en Game of 24)
●Explora creativamente múltiples estrategias
●Puede auto-evaluar y corregir caminos incorrectos
●Ideal para planificación y resolución de puzzles

Limitaciones

●Extremadamente costoso: 20-100 llamadas al LLM por problema
●Complejo de implementar (requiere lógica de búsqueda)
●Latencia muy alta (minutos para problemas complejos)
●Solo vale la pena para problemas muy difíciles

Técnicas de conocimiento: RAG y prompts de conocimiento generado

Retrieval Augmented Generation para incluir conocimiento externo y generación de conocimiento intermedio.

Recursos para esta habilidad

Retrieval-Augmented Generation Paper (Facebook AI)articulo

LangChainherramienta

ChromaDBherramienta

Guía Detallada

Generación aumentada por recuperación (RAG)

Combinar la capacidad generativa del LLM con conocimiento externo recuperado dinámicamente

Historia y contexto

Propuesto por Facebook AI (2020). Resuelve el problema fundamental de LLMs: conocimiento estático y limitado. RAG permite actualizar conocimiento sin reentrenar, crucial para aplicaciones empresariales.

Ventajas

●Elimina necesidad de reentrenamiento para actualizar conocimiento
●Reduce alucinaciones drásticamente (de 38% a 6%)
●Permite citar fuentes y justificar respuestas
●Escalable: añadir documentos no requiere cambiar modelo

Limitaciones

●Añade latencia (+200-500ms por retrieval)
●Requiere infraestructura adicional (BD vectorial)
●Calidad depende del retrieval (garbage in, garbage out)
●Consume más contexto al incluir documentos

Casos de uso principales

→Chatbots de soporte con documentación técnica

→Q&A sobre bases de conocimiento corporativas

→Asistentes legales con acceso a leyes actualizadas

→Sistemas de recomendación personalizados

RAG híbrido (Denso + disperso)

Combinar búsqueda semántica (embeddings) con búsqueda por keywords (BM25) para retrieval más robusto

Historia y contexto

Evolución reciente (2023-2024) que reconoce limitaciones de embeddings puros: fallan en términos técnicos exactos, acrónimos, nombres propios.

Ventajas

●Mejora recall: 78% (solo embeddings) → 86% (híbrido)
●Captura tanto significado semántico como matches exactos
●Robusto ante queries con terminología muy específica
●Combina fortalezas de ambos enfoques

Limitaciones

●Más complejo de implementar y mantener
●Requiere dos sistemas de indexación
●Latencia ligeramente mayor (+50-100ms)
●Necesita estrategia de fusión de resultados

RAG con fragmentación inteligente

Dividir documentos en fragmentos óptimos que preserven contexto semántico

Historia y contexto

Naive chunking (dividir cada N tokens) pierde coherencia. Chunking semántico (2023-2024) divide por temas, preservando unidades de significado.

Ventajas

●Chunks más coherentes y auto-contenidos
●Mejor recall al no cortar información relevante
●Facilita que LLM entienda el contexto recuperado

Limitaciones

●Más costoso computacionalmente
●Chunks de tamaño variable (complica gestión)
●Requiere modelos para detectar límites semánticos

Técnicas de herramientas y acciones: ReAct, Tool-use y PAL

ReAct, uso automático de herramientas y Program-Aided Language Models para tareas que requieren acciones o cálculos.

Recursos para esta habilidad

ReAct Paper (Google Research)articulo

Toolformer Paper (Meta)articulo

PAL: Program-aided Language Modelsarticulo

Guía Detallada

ReAct (Razonar + Actuar)

Intercalar pasos de razonamiento (Thought) con acciones externas (Action) para resolver tareas dinámicas

Historia y contexto

Google Research (2022). Unificó dos paradigmas: razonamiento verbal (como CoT) y toma de decisiones/acciones. Permite a los LLMs interactuar con el mundo real.

Ventajas

●Reduce alucinaciones al buscar datos en fuentes reales
●Traza de ejecución visible y debugging sencillo
●Permite recuperar información actualizada (vs knowledge cutoff)
●Sinergia: pensar ayuda a actuar, y actuar ayuda a pensar

Limitaciones

●Latencia alta por múltiples llamadas secuenciales
●Propagación de errores: una mala acción afecta todo el chain
●Context window se llena rápido con observaciones largas
●Requiere acceso seguro a herramientas

Casos de uso principales

→Asistentes de investigación web

→Agentes autónomos (AutoGPT, BabyAGI)

→Q&A sobre bases de datos SQL o APIs

→Resolución de problemas multi-paso con herramientas

Uso de herramientas / Llamada a funciones

Generar salidas estructuradas (JSON) que permitan ejecutar funciones de software deterministicas

Historia y contexto

Popularizado por OpenAI (2023) como 'Function Calling'. Transformó los LLMs de generadores de texto a controladores de API fiables.

Ventajas

●Integración nativa y fiable con sistemas software
●Formato de salida garantizado (JSON Schema)
●Elimina la necesidad de parsers complejos (Regex)
●Permite al modelo pedir múltiples herramientas en paralelo

Limitaciones

●Alucinación de parámetros (inventar argumentos)
●Confusión cuando hay muchas herramientas disponibles (>10-20)
●Riesgo de seguridad (Prompt Injection → Ejecución de código)
●Dependencia del ajuste fino del proveedor (OpenAI/Anthropic)

Casos de uso principales

→Chatbots que realizan acciones reales (reservas, compras)

→Extracción de datos estructurados complejos

→Interfaces de lenguaje natural para APIs existentes

→Automatización de flujos de trabajo (RPA con IA)

PAL (Modelos asistidos por programas)

Delegar el razonamiento lógico y matemático a un intérprete de código (Python) en lugar de simularlo

Historia y contexto

CMU/Google (2022). Observación clave: Los LLMs son mejores escribiendo código correcto que realizando cálculos aritméticos mentalmente.

Ventajas

●Precisión matemática perfecta (si el código es correcto)
●Maneja lógica algorítmica compleja (bucles, condiciones)
●Resultados reproducibles y verificables
●Desacopla razonamiento (LLM) de computación (CPU)

Limitaciones

●Requiere entorno de ejecución de código (Sandbox seguro)
●Riesgo de seguridad alto (ejecución de código arbitrario)
●Overhead de infraestructura para ejecutar Python
●Si el modelo no sabe programar la solución, falla

Casos de uso principales

→Resolución de problemas matemáticos complejos

→Análisis de datos y estadística descriptiva

→Lógica simbólica y manipulación de fechas/tiempos

→Cálculos financieros precisos

Técnicas de composición: Prompt chaining y meta-prompting

Chaining de prompts secuenciales, meta-prompting y técnicas de composición para tareas complejas.

Recursos para esta habilidad

LangChain: Chainsherramienta

Large Language Models are Human-Level Prompt Engineers (APE paper)articulo

Guía Detallada

Encadenamiento de prompts (Chaining)

Descomponer una tarea compleja en una secuencia lineal de sub-tareas, usando la salida de una como entrada de la siguiente

Historia y contexto

Wu et al. (2022). Surge como solución a las limitaciones de contexto y capacidad de razonamiento en single-turn prompting.

Ventajas

●Supera límites de ventana de contexto
●Permite verificar y corregir pasos intermedios (observabilidad)
●Posibilita usar modelos más pequeños y baratos para sub-tareas simples
●Mejora la calidad final al reducir la carga cognitiva del modelo

Limitaciones

●Latencia acumulada (suma de tiempos de cada llamada)
●Propagación de errores (error en paso 1 afecta a paso 2)
●Coste lineal por número de pasos
●Complejidad de orquestación

Casos de uso principales

→Generación de reportes largos (Investigación → Esquema → Redacción)

→Análisis de documentos legales complejos

→Traducción con validación y refinamiento de estilo

→Deducción lógica multi-paso

Meta-prompting

Utilizar un LLM para generar, mejorar o evaluar prompts para otro LLM (Prompt Engineering Automatizado)

Historia y contexto

Paper 'Large Language Models are Human-Level Prompt Engineers' (2022). Demostró que los LLMs pueden optimizar sus propias instrucciones.

Ventajas

●Automatiza la optimización de prompts (ahorro de tiempo)
●Descubre estrategias de prompting contraintuitivas para humanos
●Adapta prompts dinámicamente según la tarea
●Estandariza la calidad de los prompts en un equipo

Limitaciones

●Requiere modelos potentes (y caros) para el meta-reasoning
●Puede generar prompts verbosos o extraños
●Difícil de depurar por qué eligió ciertas instrucciones
●Riesgo de sobre-optimización (overfitting) a pocos ejemplos

Casos de uso principales

→Generator de System Prompts para chatbots personalizados

→Optimización de prompts para tareas de clasificación difíciles

→Creación de variaciones de prompts para A/B testing

→Adaptación de prompts para diferentes modelos (GPT-4 → Claude 3)

De menor a mayor (Least-to-Most)

Descomponer un problema en sub-problemas más simples y resolverlos secuencialmente, usando respuestas anteriores como contexto

Historia y contexto

Google Research (2022). Inspirado en métodos educativos y programación dinámica. Clave para generalización composicional (resolver problemas más difíciles que los vistos en training).

Ventajas

●Resuelve problemas que requieren composición lógica compleja
●Traza de razonamiento muy clara y educativa
●Permite al modelo manejar inputs más largos de lo habitual
●Alta precisión en tareas simbólicas y matemáticas

Limitaciones

●Requiere que el problema sea descomponible
●Múltiples llamadas al LLM (latencia y coste)
●Necesita diseñar la estrategia de descomposición para cada tipo de tarea

Casos de uso principales

→Concatenación de últimas letras de palabras largas

→Resolución de problemas de álgebra multi-paso

→Navegación espacial basada en instrucciones de texto

→Parsing de lenguajes controlados complejos

Técnicas de optimización: APE, prompt activo y estímulo direccional

Automatic Prompt Engineering, active prompting y directional stimulus prompting para optimización automática.

Recursos para esta habilidad

Automatic Prompt Engineer (APE) Paperarticulo

Active Prompting Paperarticulo

PromptFooherramienta

Guía Detallada

Ingeniería de prompts automática (APE)

Tratar la generación de prompts como un problema de optimización programática, usando LLMs para escribir prompts para otros LLMs

Historia y contexto

Paper de Zhou et al. (2022). Demostraron que los prompts generados por LLMs a menudo superan a los escritos por humanos.

Ventajas

●Elimina el proceso manual de prueba y error
●Optimización basada en métricas objetivas (accuracy en validación)
●Genera múltiples variantes creativas
●Escala a tareas nuevas rápidamente

Limitaciones

●Costoso (requiere muchas llamadas para generación y validación)
●Los prompts generados pueden ser difíciles de interpretar
●Requiere un dataset de validación de alta calidad (input/output)
●Puede hacer 'overfitting' al dataset de validación

Casos de uso principales

→Optimización de prompts para sistemas en producción

→Adaptación de prompts al cambiar de modelo (ej: GPT-3.5 a Llama 3)

→Descubrimiento inicial de estrategias para tareas nuevas

→Mejora continua de rendimiento en pipelines automáticos

Prompting activo

Seleccionar dinámicamente los ejemplos más informativos para few-shot learning basándose en la incertidumbre del modelo

Historia y contexto

Diao et al. (2023). Inspirado en Active Learning tradicional. En lugar de seleccionar ejemplos aleatorios para el prompt, selecciona aquellos donde el modelo duda más.

Ventajas

●Maximiza el rendimiento con el mínimo número de ejemplos
●Reduce coste de anotación humana (solo anotas lo difícil)
●Mejora robustez en fronteras de decisión complejas
●Más eficiente que añadir ejemplos aleatoriamente

Limitaciones

●Requiere calcular incertidumbre (complejo en APIs caja negra)
●Añade paso de pre-procesamiento
●Necesita un pool grande de datos sin etiquetar
●Depende de la calibración de probabilidad del modelo

Casos de uso principales

→Clasificación de textos con clases confusas

→Sistemas few-shot con presupuesto de tokens limitado

→Mejora iterativa de datasets de entrenamiento

→Etiquetado de datos eficiente (Human-in-the-loop)

Prompting de estímulo direccional

Guiar el proceso de generación del modelo proporcionando pistas o palabras clave específicas (estímulos) en el prompt

Historia y contexto

Li et al. (2023). Propone usar un modelo auxiliar pequeño para generar 'pistas' que guíen al LLM grande hacia la respuesta deseada.

Ventajas

●Control más fino sobre el contenido generado
●Mejora la fidelidad a información clave (ej: resumen)
●Reduce alucinaciones al restringir el espacio de búsqueda
●Combina eficiencia de modelos pequeños (generan pistas) con calidad de grandes

Limitaciones

●Requiere entrenar/ajustar modelo de estímulos
●Añade complejidad a la arquitectura (2 modelos)
●Difícil definir qué constituye un buen 'estímulo'
●No es puramente prompt engineering (requiere fine-tuning auxiliar)

Casos de uso principales

→Resumen de textos guiado (que incluya keywords X, Y)

→Diálogo orientado a objetivos (guiar conversación)

→Generación de historias con puntos de trama obligatorios

→Traducción con restricciones léxicas

Técnicas avanzadas: Reflexion y prompts de grafo

Reflexion para auto-mejora iterativa y prompts de grafo para razonamiento sobre estructuras relacionales.

Reflexion

es un framework donde el agente ejecuta una tarea, recibe feedback sobre su desempeño, reflexiona sobre qué salió mal y reintenta con una nueva estrategia aprendida. Ciclo: Act → Evaluate → Reflect → Act again.

Prompts de grafo

estructuran información relacional como grafos (nodos y aristas) en el prompt, permitiendo al modelo razonar sobre conexiones complejas.

Nivel: ExpertoCategoría: Auto-mejoraIterativoRazonamiento complejo

Ejemplos prácticos

Reflexion para debugging de código

Iteración 1: Generar código → ejecutar tests → 3/10 tests pasan. Reflexion: "Los tests fallan porque no manejé el caso de listas vacías. Debo añadir validación al inicio." Iteración 2: Regenerar código con insight → 8/10 pasan. Iteración 3: reflexión sobre casos edge → 10/10 pasan. Resultado: HumanEval benchmark pasa de 67% (sin reflexion) a 88% (con reflexion, max 3 iteraciones).

Escenario: Asistente de programación que aprende de sus errores en tests para generar código correcto.

Prompts de grafo para análisis de redes sociales

Representar red de influencia como grafo en el prompt: "Nodos: [usuarios], Aristas: [relaciones]. Usuario A sigue a B, C. Usuario B sigue a D. ¿Cuál es el usuario con mayor influencia indirecta?" Incluir el grafo permite al modelo razonar sobre transitividad y centralidad. Accuracy en preguntas de conectividad: 79% con grafo explícito vs 52% con descripción textual lineal.

Escenario: Análisis de influencers y propagación de información en redes sociales.

Reflexion para mejora de respuestas de chatbot

Usuario: pregunta → Bot: respuesta → Usuario: feedback negativo → Reflexion interna: "Mi respuesta fue demasiado técnica y no respondí la pregunta implícita sobre [X]. Debo reformular en lenguaje simple y abordar [X]" → Bot: respuesta mejorada. CSAT mejora de 3.4/5 a 4.2/5 tras habilitar reflexion en 20% de interacciones con feedback negativo.

Escenario: Chatbot de servicio al cliente que aprende de feedback de usuarios insatisfechos.

Recursos para esta habilidad

Reflexion Paper (Northeastern University)articulo

Graph-of-Thought Promptingarticulo

Prompting multimodal

Chain-of-Thought multimodal y prompting para modelos visión-lenguaje.

Guía Detallada

Cadena de pensamiento multimodal

Guiar al modelo para que razone paso a paso considerando información visual y textual simultáneamente

Historia y contexto

Evolución natural de CoT aplicado a modelos Vision-Language (GPT-4V, Gemini 1.5). Fundamental para tareas de razonamiento visual complejo (VQA).

Ventajas

●Mejora la precision en preguntas sobre imágenes complejas
●Permite descomponer problemas visuales (contar objetos, analizar relaciones)
●Transparencia en cómo el modelo interpreta la imagen
●Combina OCR (texto en imagen) con razonamiento lógico

Limitaciones

●Mayor latencia por procesamiento de tokens de imagen
●Alucinaciones visuales (ver cosas que no existen)
●Sensible a la calidad/resolución de la imagen
●Ventana de contexto limitada por número de imágenes

Casos de uso principales

→Análisis de dashboards y gráficas financieras

→Soporte técnico basado en capturas de pantalla

→Asistentes médicos para radiografía/dermatología (experimental)

→Navegación robótica basada en instrucciones visuales

Prompting con marcadores (SoM)

Mejorar la referencia espacial superponiendo marcadores numéricos o etiquetas en la imagen antes de enviarla al modelo

Historia y contexto

Microsoft Research (2023). Soluciona el problema de 'grounding' (referencia precisa) en modelos multimodales que fallaban al señalar coordenadas exactas.

Ventajas

●Elimina la ambigüedad al referirse a objetos específicos
●Mejora drásticamente la capacidad de contar y localizar
●Facilita la interacción usuario-modelo ('¿qué es el objeto #3?')
●Reduce alucinaciones espaciales

Limitaciones

●Requiere pre-procesamiento de la imagen (algoritmo de segmentación como SAM)
●Añade ruido visual a la imagen original
●El modelo debe entender el concepto de marcadores superpuestos
●Dependencia de la calidad del segmentador inicial

Casos de uso principales

→Inventario automatizado (contar items específicos en estantería)

→Referencias precisas en UI (clicar el botón #5)

→Análisis de seguridad (identificar persona #2 en video)

→Compras visuales (quiero la camiseta marcada con #1)

Prompting de video y razonamiento temporal

Analizar secuencias de frames para entender acciones, causalidad y cambios temporales

Historia y contexto

Con Gemini 1.5 Pro y GPT-4o, la ventana de contexto creció para permitir subir videos enteros (miles de frames) como input.

Ventajas

●Comprensión de dinámicas temporales (antes/después)
●Resumen de eventos largos en segundos
●Búsqueda semántica dentro de videos ('¿en qué minuto sale el perro?')
●Análisis de movimiento y acción

Limitaciones

●Coste computacional y de tokens muy elevado
●Pérdida de detalles finos por compresión/sampling de frames
●Dificultad para mantener coherencia en videos muy largos (>1h)
●Latencia alta en procesamiento

Casos de uso principales

→Resumen automático de reuniones grabadas

→Análisis de seguridad y vigilancia

→Generación de highlights deportivos

→Tutoriales paso a paso extraídos de videos de YouTube

Validación cuantitativa y cualitativa

Métodos de validación de prompts mediante métricas automáticas y evaluación humana.

Recursos para esta habilidad

PromptFooherramienta

Braintrustherramienta

Langfuseherramienta

OpenAI Evalsherramienta

Anthropic Consoleherramienta

Guía de evaluación de promptsdocumentacion

Guía Detallada

Validación cuantitativa

Medir el rendimiento de los prompts usando métricas numéricas objetivas y reproducibles

Historia y contexto

Heredado de PLN tradicional (BLEU para traducción). En la era LLM, ha evolucionado hacia métricas de similitud semántica (Embeddings) y exactitud factual.

Ventajas

●Permite evaluación a gran escala (miles de ejemplos)
●Detección rápida de regresiones (si un cambio rompe algo)
●Comparación objetiva entre modelos o prompts
●Integrable en pipelines de CI/CD (LLMOps)

Limitaciones

●No captura matices como creatividad o tono
●Métricas de n-gramas (ROUGE) correlacionan mal con calidad humana
●Requiere 'Ground Truth' (respuestas correctas de referencia)
●Puede dar falsos negativos (respuesta correcta pero fraseada diferente)

Casos de uso principales

→Clasificación de texto (Accuracy, F1-Score)

→Extracción de entidades (Precision/Recall)

→Resúmenes extractivos (ROUGE)

→Sistemas de Q&A factual (Exact Match)

LLM como juez (LLM-as-a-Judge)

Usar un LLM potente (ej: GPT-4) para evaluar las respuestas de otro LLM según criterios definidos

Historia y contexto

Paper 'Judging LLM-as-a-Judge' (2023). Demostró que GPT-4 tiene una correlación >80% con evaluadores humanos expertos.

Ventajas

●Evalúa aspectos subjetivos (coherencia, utilidad, seguridad)
●Más barato y rápido que evaluación humana
●No requiere respuestas de referencia exactas (reference-free)
●Puede dar explicaciones detalladas de su evaluación

Limitaciones

●Sesgo del juez (favoritismo hacia sus propias respuestas)
●Coste computacional (multiplica x2 las llamadas)
●El juez puede fallar en detectar errores sutiles de razonamiento
●Dependencia de la calidad del prompt del juez

Casos de uso principales

→Evaluar calidad de resúmenes o escritura creativa

→Detectar alucinaciones o contenido toxico

→Comparar dos modelos (A vs B) en chat abierto

→Evaluar adherencia a instrucciones complejas

Evaluación Humana y A/B Testing

Obtener veredicto final sobre la calidad mediante juicio humano, ya sea expertos o usuarios finales en producción

Historia y contexto

El estándar de oro (Gold Standard) desde siempre. RLHF (Reinforcement Learning from Human Feedback) se basa enteramente en esto.

Ventajas

●Única forma real de medir 'satisfacción de usuario'
●Captura matices culturales, humor y contexto implícito
●Genera datos de entrenamiento para futuros modelos (RLHF)
●Detecta errores que pasan filtros automáticos

Limitaciones

●Extremadamente lento y costoso
●Subjetivo y poco escalable
●Baja concordancia entre anotadores (inter-annotator agreement)
●Difícil de reproducir exactamente

Casos de uso principales

→Validación final antes de deployment crítico

→A/B Testing en producción (Prompt A vs Prompt B)

→Creación de datasets de preferencia para RLHF

→Auditoría de seguridad y alineamiento