Saltar al contenido
Competencia 04

Ingeniería de prompts y LLMs

Optimización de la interacción con modelos generativos para extraer el máximo rendimiento.

¿De qué se trata?

La ingeniería de prompts es el arte y ciencia de comunicarse efectivamente con modelos de lenguaje. Un buen prompt puede transformar una respuesta mediocre en una excelente, y un prompt mal diseñado puede hacer que el modelo más potente falle.

¿Por qué importa?

Con la democratización de los LLMs, saber escribir buenos prompts se ha convertido en una habilidad transversal. Para los profesionales de PLN, es fundamental tanto para desarrollo como para evaluar las capacidades reales de los modelos.

Perfiles relacionados

Consejos clave

  • Sé específico: los modelos responden mejor a instrucciones claras.
  • Experimenta con el formato de salida: JSON, markdown, listas...
  • Usa delimitadores claros para separar instrucciones de contenido.
  • Itera: el primer prompt rara vez es el mejor.

Habilidades específicas

01

Técnicas básicas: Zero-shot y Few-shot

Prompting sin ejemplos (zero-shot) y con pocos ejemplos (few-shot) para tareas de clasificación, extracción y generación.

Guía Detallada

01
Prompting sin ejemplos (Zero-shot)

Obtener resultados útiles del modelo sin proporcionar ejemplos, solo con instrucciones claras

Historia y contexto

GPT-3 (2020) demostró que los LLMs pueden realizar tareas complejas sin ejemplos explícitos, solo con instrucciones en lenguaje natural. Esto democratizó el acceso a IA generativa.

Ventajas
  • Deployment instantáneo sin necesidad de ejemplos
  • Máxima flexibilidad para explorar capacidades
  • No consume espacio del contexto con ejemplos
Limitaciones
  • Menor precisión que few-shot en tareas específicas
  • No captura convenciones de formato particulares
  • Requiere instrucciones muy claras y detalladas
Casos de uso principales
Prototipado rápido y exploración
Tareas genéricas bien definidas
Cuando no hay ejemplos disponibles
02
Prompting con pocos ejemplos (Few-shot)

Guiar al modelo proporcionando 2-10 ejemplos de entrada-salida que demuestran el comportamiento deseado

Historia y contexto

Técnica central de GPT-3 que permitió adaptación sin fine-tuning. El paper 'Language Models are Few-Shot Learners' (2020) mostró que con solo 10-100 ejemplos se podía alcanzar rendimiento competitivo.

Ventajas
  • Mejora significativa de precisión vs zero-shot (típicamente +15-30%)
  • Permite enseñar formatos de salida específicos
  • Adaptable a dominios especializados sin reentrenamiento
Limitaciones
  • Consume contexto limitado (cada ejemplo usa tokens)
  • Selección de ejemplos crítica (ejemplos malos perjudican)
  • No escala a tareas que requieren miles de patrones
Casos de uso principales
Clasificación con categorías específicas del dominio
Extracción de información con formato estructurado
Generación con tono o estilo particular
03
Few-shot dinámico (Adaptativo)

Seleccionar ejemplos relevantes dinámicamente según la entrada, en lugar de usar ejemplos fijos

Historia y contexto

Evolución reciente (2023-2024) que combina embeddings semánticos con few-shot learning para seleccionar los ejemplos más informativos por consulta.

Ventajas
  • Mejora +5-10% accuracy vs few-shot estático
  • Cada input recibe los ejemplos más relevantes
  • Aprovecha mejor el espacio del contexto
Limitaciones
  • Requiere base de datos de ejemplos + embeddings
  • Añade latencia por búsqueda de similitud (+100-200ms)
  • Más complejo de implementar y mantener
02

Técnicas de razonamiento: CoT, Auto-consistencia y Tree of Thoughts

Chain-of-Thought, auto-consistencia y Tree of Thoughts para problemas que requieren razonamiento complejo paso a paso.

Guía Detallada

01
Cadena de pensamiento (Chain-of-thought)

Guiar al modelo a razonar paso a paso explícitamente antes de dar una respuesta final

Historia y contexto

Introducida por Google Research en 2022, revolucionó la capacidad de razonamiento de LLMs. Simple frase 'Let's think step by step' mejora accuracy en problemas matemáticos de 17% a 78%.

Ventajas
  • Mejora dramatica en razonamiento: +35-50% en matemáticas
  • transparency: puedes ver el proceso de razonamiento
  • Reduce alucinaciones al forzar lógica explícita
  • Funciona mejor con modelos grandes (>10B parámetros)
Limitaciones
  • Aumenta uso de tokens significativamente (2-5x más)
  • No siempre útil para tar eas simples o directas
  • Puede generar razonamiento incorrecto pero convincente
  • Latencia mayor por generar más texto
Casos de uso principales
Problemas matemáticos y aritméticos
Razonamiento lógico y deductivo
Decisiones multi-criterio complejas
Explicación de respuestas para usuarios
02
Auto-consistencia (Self-consistency)

Generar múltiples cadenas de razonamiento y seleccionar la respuesta más frecuente mediante votación

Historia y contexto

Propuesta por Google en 2022 como mejora de CoT. Insight: aunque un razonamiento individual puede fallar, la respuesta correcta tiende a aparecer más frecuentemente en múltiples intentos.

Ventajas
  • Mejora robustez: +8-15% accuracy sobre CoT simple
  • Reduce errores aleatorios y alucinaciones
  • No requiere fine-tuning ni datos adicionales
  • Funciona especialmente bien en razonamiento lógico
Limitaciones
  • Coste multiplicado: 5-10x más tokens que CoT simple
  • Latencia significativa (puede tardar 10-30 segundos)
  • Requiere API con parámetro temperature > 0
  • No garantiza corrección si todos los caminos fallan
03
Árbol de pensamientos (Tree of Thoughts)

Explorar múltiples caminos de razonamiento en paralelo con evaluación y backtracking

Historia y contexto

Princeton/Google DeepMind 2023. Inspirado en algoritmos de búsqueda en árbol (MCTS). Permite al LLM 'pensar hacia adelante' y 'retroceder' como humanos resolviendo problemas complejos.

Ventajas
  • Resuelve problemas que CoT no puede (74% vs 4% en Game of 24)
  • Explora creativamente múltiples estrategias
  • Puede auto-evaluar y corregir caminos incorrectos
  • Ideal para planificación y resolución de puzzles
Limitaciones
  • Extremadamente costoso: 20-100 llamadas al LLM por problema
  • Complejo de implementar (requiere lógica de búsqueda)
  • Latencia muy alta (minutos para problemas complejos)
  • Solo vale la pena para problemas muy difíciles
03

Técnicas de conocimiento: RAG y prompts de conocimiento generado

Retrieval Augmented Generation para incluir conocimiento externo y generación de conocimiento intermedio.

Guía Detallada

01
Generación aumentada por recuperación (RAG)

Combinar la capacidad generativa del LLM con conocimiento externo recuperado dinámicamente

Historia y contexto

Propuesto por Facebook AI (2020). Resuelve el problema fundamental de LLMs: conocimiento estático y limitado. RAG permite actualizar conocimiento sin reentrenar, crucial para aplicaciones empresariales.

Ventajas
  • Elimina necesidad de reentrenamiento para actualizar conocimiento
  • Reduce alucinaciones drásticamente (de 38% a 6%)
  • Permite citar fuentes y justificar respuestas
  • Escalable: añadir documentos no requiere cambiar modelo
Limitaciones
  • Añade latencia (+200-500ms por retrieval)
  • Requiere infraestructura adicional (BD vectorial)
  • Calidad depende del retrieval (garbage in, garbage out)
  • Consume más contexto al incluir documentos
Casos de uso principales
Chatbots de soporte con documentación técnica
Q&A sobre bases de conocimiento corporativas
Asistentes legales con acceso a leyes actualizadas
Sistemas de recomendación personalizados
02
RAG híbrido (Denso + disperso)

Combinar búsqueda semántica (embeddings) con búsqueda por keywords (BM25) para retrieval más robusto

Historia y contexto

Evolución reciente (2023-2024) que reconoce limitaciones de embeddings puros: fallan en términos técnicos exactos, acrónimos, nombres propios.

Ventajas
  • Mejora recall: 78% (solo embeddings) → 86% (híbrido)
  • Captura tanto significado semántico como matches exactos
  • Robusto ante queries con terminología muy específica
  • Combina fortalezas de ambos enfoques
Limitaciones
  • Más complejo de implementar y mantener
  • Requiere dos sistemas de indexación
  • Latencia ligeramente mayor (+50-100ms)
  • Necesita estrategia de fusión de resultados
03
RAG con fragmentación inteligente

Dividir documentos en fragmentos óptimos que preserven contexto semántico

Historia y contexto

Naive chunking (dividir cada N tokens) pierde coherencia. Chunking semántico (2023-2024) divide por temas, preservando unidades de significado.

Ventajas
  • Chunks más coherentes y auto-contenidos
  • Mejor recall al no cortar información relevante
  • Facilita que LLM entienda el contexto recuperado
Limitaciones
  • Más costoso computacionalmente
  • Chunks de tamaño variable (complica gestión)
  • Requiere modelos para detectar límites semánticos
04

Técnicas de herramientas y acciones: ReAct, Tool-use y PAL

ReAct, uso automático de herramientas y Program-Aided Language Models para tareas que requieren acciones o cálculos.

Guía Detallada

01
ReAct (Razonar + Actuar)

Intercalar pasos de razonamiento (Thought) con acciones externas (Action) para resolver tareas dinámicas

Historia y contexto

Google Research (2022). Unificó dos paradigmas: razonamiento verbal (como CoT) y toma de decisiones/acciones. Permite a los LLMs interactuar con el mundo real.

Ventajas
  • Reduce alucinaciones al buscar datos en fuentes reales
  • Traza de ejecución visible y debugging sencillo
  • Permite recuperar información actualizada (vs knowledge cutoff)
  • Sinergia: pensar ayuda a actuar, y actuar ayuda a pensar
Limitaciones
  • Latencia alta por múltiples llamadas secuenciales
  • Propagación de errores: una mala acción afecta todo el chain
  • Context window se llena rápido con observaciones largas
  • Requiere acceso seguro a herramientas
Casos de uso principales
Asistentes de investigación web
Agentes autónomos (AutoGPT, BabyAGI)
Q&A sobre bases de datos SQL o APIs
Resolución de problemas multi-paso con herramientas
02
Uso de herramientas / Llamada a funciones

Generar salidas estructuradas (JSON) que permitan ejecutar funciones de software deterministicas

Historia y contexto

Popularizado por OpenAI (2023) como 'Function Calling'. Transformó los LLMs de generadores de texto a controladores de API fiables.

Ventajas
  • Integración nativa y fiable con sistemas software
  • Formato de salida garantizado (JSON Schema)
  • Elimina la necesidad de parsers complejos (Regex)
  • Permite al modelo pedir múltiples herramientas en paralelo
Limitaciones
  • Alucinación de parámetros (inventar argumentos)
  • Confusión cuando hay muchas herramientas disponibles (>10-20)
  • Riesgo de seguridad (Prompt Injection → Ejecución de código)
  • Dependencia del ajuste fino del proveedor (OpenAI/Anthropic)
Casos de uso principales
Chatbots que realizan acciones reales (reservas, compras)
Extracción de datos estructurados complejos
Interfaces de lenguaje natural para APIs existentes
Automatización de flujos de trabajo (RPA con IA)
03
PAL (Modelos asistidos por programas)

Delegar el razonamiento lógico y matemático a un intérprete de código (Python) en lugar de simularlo

Historia y contexto

CMU/Google (2022). Observación clave: Los LLMs son mejores escribiendo código correcto que realizando cálculos aritméticos mentalmente.

Ventajas
  • Precisión matemática perfecta (si el código es correcto)
  • Maneja lógica algorítmica compleja (bucles, condiciones)
  • Resultados reproducibles y verificables
  • Desacopla razonamiento (LLM) de computación (CPU)
Limitaciones
  • Requiere entorno de ejecución de código (Sandbox seguro)
  • Riesgo de seguridad alto (ejecución de código arbitrario)
  • Overhead de infraestructura para ejecutar Python
  • Si el modelo no sabe programar la solución, falla
Casos de uso principales
Resolución de problemas matemáticos complejos
Análisis de datos y estadística descriptiva
Lógica simbólica y manipulación de fechas/tiempos
Cálculos financieros precisos
05

Técnicas de composición: Prompt chaining y meta-prompting

Chaining de prompts secuenciales, meta-prompting y técnicas de composición para tareas complejas.

Guía Detallada

01
Encadenamiento de prompts (Chaining)

Descomponer una tarea compleja en una secuencia lineal de sub-tareas, usando la salida de una como entrada de la siguiente

Historia y contexto

Wu et al. (2022). Surge como solución a las limitaciones de contexto y capacidad de razonamiento en single-turn prompting.

Ventajas
  • Supera límites de ventana de contexto
  • Permite verificar y corregir pasos intermedios (observabilidad)
  • Posibilita usar modelos más pequeños y baratos para sub-tareas simples
  • Mejora la calidad final al reducir la carga cognitiva del modelo
Limitaciones
  • Latencia acumulada (suma de tiempos de cada llamada)
  • Propagación de errores (error en paso 1 afecta a paso 2)
  • Coste lineal por número de pasos
  • Complejidad de orquestación
Casos de uso principales
Generación de reportes largos (Investigación → Esquema → Redacción)
Análisis de documentos legales complejos
Traducción con validación y refinamiento de estilo
Deducción lógica multi-paso
02
Meta-prompting

Utilizar un LLM para generar, mejorar o evaluar prompts para otro LLM (Prompt Engineering Automatizado)

Historia y contexto

Paper 'Large Language Models are Human-Level Prompt Engineers' (2022). Demostró que los LLMs pueden optimizar sus propias instrucciones.

Ventajas
  • Automatiza la optimización de prompts (ahorro de tiempo)
  • Descubre estrategias de prompting contraintuitivas para humanos
  • Adapta prompts dinámicamente según la tarea
  • Estandariza la calidad de los prompts en un equipo
Limitaciones
  • Requiere modelos potentes (y caros) para el meta-reasoning
  • Puede generar prompts verbosos o extraños
  • Difícil de depurar por qué eligió ciertas instrucciones
  • Riesgo de sobre-optimización (overfitting) a pocos ejemplos
Casos de uso principales
Generator de System Prompts para chatbots personalizados
Optimización de prompts para tareas de clasificación difíciles
Creación de variaciones de prompts para A/B testing
Adaptación de prompts para diferentes modelos (GPT-4 → Claude 3)
03
De menor a mayor (Least-to-Most)

Descomponer un problema en sub-problemas más simples y resolverlos secuencialmente, usando respuestas anteriores como contexto

Historia y contexto

Google Research (2022). Inspirado en métodos educativos y programación dinámica. Clave para generalización composicional (resolver problemas más difíciles que los vistos en training).

Ventajas
  • Resuelve problemas que requieren composición lógica compleja
  • Traza de razonamiento muy clara y educativa
  • Permite al modelo manejar inputs más largos de lo habitual
  • Alta precisión en tareas simbólicas y matemáticas
Limitaciones
  • Requiere que el problema sea descomponible
  • Múltiples llamadas al LLM (latencia y coste)
  • Necesita diseñar la estrategia de descomposición para cada tipo de tarea
Casos de uso principales
Concatenación de últimas letras de palabras largas
Resolución de problemas de álgebra multi-paso
Navegación espacial basada en instrucciones de texto
Parsing de lenguajes controlados complejos
06

Técnicas de optimización: APE, prompt activo y estímulo direccional

Automatic Prompt Engineering, active prompting y directional stimulus prompting para optimización automática.

Guía Detallada

01
Ingeniería de prompts automática (APE)

Tratar la generación de prompts como un problema de optimización programática, usando LLMs para escribir prompts para otros LLMs

Historia y contexto

Paper de Zhou et al. (2022). Demostraron que los prompts generados por LLMs a menudo superan a los escritos por humanos.

Ventajas
  • Elimina el proceso manual de prueba y error
  • Optimización basada en métricas objetivas (accuracy en validación)
  • Genera múltiples variantes creativas
  • Escala a tareas nuevas rápidamente
Limitaciones
  • Costoso (requiere muchas llamadas para generación y validación)
  • Los prompts generados pueden ser difíciles de interpretar
  • Requiere un dataset de validación de alta calidad (input/output)
  • Puede hacer 'overfitting' al dataset de validación
Casos de uso principales
Optimización de prompts para sistemas en producción
Adaptación de prompts al cambiar de modelo (ej: GPT-3.5 a Llama 3)
Descubrimiento inicial de estrategias para tareas nuevas
Mejora continua de rendimiento en pipelines automáticos
02
Prompting activo

Seleccionar dinámicamente los ejemplos más informativos para few-shot learning basándose en la incertidumbre del modelo

Historia y contexto

Diao et al. (2023). Inspirado en Active Learning tradicional. En lugar de seleccionar ejemplos aleatorios para el prompt, selecciona aquellos donde el modelo duda más.

Ventajas
  • Maximiza el rendimiento con el mínimo número de ejemplos
  • Reduce coste de anotación humana (solo anotas lo difícil)
  • Mejora robustez en fronteras de decisión complejas
  • Más eficiente que añadir ejemplos aleatoriamente
Limitaciones
  • Requiere calcular incertidumbre (complejo en APIs caja negra)
  • Añade paso de pre-procesamiento
  • Necesita un pool grande de datos sin etiquetar
  • Depende de la calibración de probabilidad del modelo
Casos de uso principales
Clasificación de textos con clases confusas
Sistemas few-shot con presupuesto de tokens limitado
Mejora iterativa de datasets de entrenamiento
Etiquetado de datos eficiente (Human-in-the-loop)
03
Prompting de estímulo direccional

Guiar el proceso de generación del modelo proporcionando pistas o palabras clave específicas (estímulos) en el prompt

Historia y contexto

Li et al. (2023). Propone usar un modelo auxiliar pequeño para generar 'pistas' que guíen al LLM grande hacia la respuesta deseada.

Ventajas
  • Control más fino sobre el contenido generado
  • Mejora la fidelidad a información clave (ej: resumen)
  • Reduce alucinaciones al restringir el espacio de búsqueda
  • Combina eficiencia de modelos pequeños (generan pistas) con calidad de grandes
Limitaciones
  • Requiere entrenar/ajustar modelo de estímulos
  • Añade complejidad a la arquitectura (2 modelos)
  • Difícil definir qué constituye un buen 'estímulo'
  • No es puramente prompt engineering (requiere fine-tuning auxiliar)
Casos de uso principales
Resumen de textos guiado (que incluya keywords X, Y)
Diálogo orientado a objetivos (guiar conversación)
Generación de historias con puntos de trama obligatorios
Traducción con restricciones léxicas
07

Técnicas avanzadas: Reflexion y prompts de grafo

Reflexion para auto-mejora iterativa y prompts de grafo para razonamiento sobre estructuras relacionales.

Reflexion

es un framework donde el agente ejecuta una tarea, recibe feedback sobre su desempeño, reflexiona sobre qué salió mal y reintenta con una nueva estrategia aprendida. Ciclo: Act → Evaluate → Reflect → Act again.

Prompts de grafo

estructuran información relacional como grafos (nodos y aristas) en el prompt, permitiendo al modelo razonar sobre conexiones complejas.

Nivel: ExpertoCategoría: Auto-mejoraIterativoRazonamiento complejo

Ejemplos prácticos

1
Reflexion para debugging de código

Iteración 1: Generar código → ejecutar tests → 3/10 tests pasan. Reflexion: "Los tests fallan porque no manejé el caso de listas vacías. Debo añadir validación al inicio." Iteración 2: Regenerar código con insight → 8/10 pasan. Iteración 3: reflexión sobre casos edge → 10/10 pasan. Resultado: HumanEval benchmark pasa de 67% (sin reflexion) a 88% (con reflexion, max 3 iteraciones).

Escenario: Asistente de programación que aprende de sus errores en tests para generar código correcto.

2
Prompts de grafo para análisis de redes sociales

Representar red de influencia como grafo en el prompt: "Nodos: [usuarios], Aristas: [relaciones]. Usuario A sigue a B, C. Usuario B sigue a D. ¿Cuál es el usuario con mayor influencia indirecta?" Incluir el grafo permite al modelo razonar sobre transitividad y centralidad. Accuracy en preguntas de conectividad: 79% con grafo explícito vs 52% con descripción textual lineal.

Escenario: Análisis de influencers y propagación de información en redes sociales.

3
Reflexion para mejora de respuestas de chatbot

Usuario: pregunta → Bot: respuesta → Usuario: feedback negativo → Reflexion interna: "Mi respuesta fue demasiado técnica y no respondí la pregunta implícita sobre [X]. Debo reformular en lenguaje simple y abordar [X]" → Bot: respuesta mejorada. CSAT mejora de 3.4/5 a 4.2/5 tras habilitar reflexion en 20% de interacciones con feedback negativo.

Escenario: Chatbot de servicio al cliente que aprende de feedback de usuarios insatisfechos.

08

Prompting multimodal

Chain-of-Thought multimodal y prompting para modelos visión-lenguaje.

Guía Detallada

01
Cadena de pensamiento multimodal

Guiar al modelo para que razone paso a paso considerando información visual y textual simultáneamente

Historia y contexto

Evolución natural de CoT aplicado a modelos Vision-Language (GPT-4V, Gemini 1.5). Fundamental para tareas de razonamiento visual complejo (VQA).

Ventajas
  • Mejora la precision en preguntas sobre imágenes complejas
  • Permite descomponer problemas visuales (contar objetos, analizar relaciones)
  • Transparencia en cómo el modelo interpreta la imagen
  • Combina OCR (texto en imagen) con razonamiento lógico
Limitaciones
  • Mayor latencia por procesamiento de tokens de imagen
  • Alucinaciones visuales (ver cosas que no existen)
  • Sensible a la calidad/resolución de la imagen
  • Ventana de contexto limitada por número de imágenes
Casos de uso principales
Análisis de dashboards y gráficas financieras
Soporte técnico basado en capturas de pantalla
Asistentes médicos para radiografía/dermatología (experimental)
Navegación robótica basada en instrucciones visuales
02
Prompting con marcadores (SoM)

Mejorar la referencia espacial superponiendo marcadores numéricos o etiquetas en la imagen antes de enviarla al modelo

Historia y contexto

Microsoft Research (2023). Soluciona el problema de 'grounding' (referencia precisa) en modelos multimodales que fallaban al señalar coordenadas exactas.

Ventajas
  • Elimina la ambigüedad al referirse a objetos específicos
  • Mejora drásticamente la capacidad de contar y localizar
  • Facilita la interacción usuario-modelo ('¿qué es el objeto #3?')
  • Reduce alucinaciones espaciales
Limitaciones
  • Requiere pre-procesamiento de la imagen (algoritmo de segmentación como SAM)
  • Añade ruido visual a la imagen original
  • El modelo debe entender el concepto de marcadores superpuestos
  • Dependencia de la calidad del segmentador inicial
Casos de uso principales
Inventario automatizado (contar items específicos en estantería)
Referencias precisas en UI (clicar el botón #5)
Análisis de seguridad (identificar persona #2 en video)
Compras visuales (quiero la camiseta marcada con #1)
03
Prompting de video y razonamiento temporal

Analizar secuencias de frames para entender acciones, causalidad y cambios temporales

Historia y contexto

Con Gemini 1.5 Pro y GPT-4o, la ventana de contexto creció para permitir subir videos enteros (miles de frames) como input.

Ventajas
  • Comprensión de dinámicas temporales (antes/después)
  • Resumen de eventos largos en segundos
  • Búsqueda semántica dentro de videos ('¿en qué minuto sale el perro?')
  • Análisis de movimiento y acción
Limitaciones
  • Coste computacional y de tokens muy elevado
  • Pérdida de detalles finos por compresión/sampling de frames
  • Dificultad para mantener coherencia en videos muy largos (>1h)
  • Latencia alta en procesamiento
Casos de uso principales
Resumen automático de reuniones grabadas
Análisis de seguridad y vigilancia
Generación de highlights deportivos
Tutoriales paso a paso extraídos de videos de YouTube
09

Validación cuantitativa y cualitativa

Métodos de validación de prompts mediante métricas automáticas y evaluación humana.

Guía Detallada

01
Validación cuantitativa

Medir el rendimiento de los prompts usando métricas numéricas objetivas y reproducibles

Historia y contexto

Heredado de PLN tradicional (BLEU para traducción). En la era LLM, ha evolucionado hacia métricas de similitud semántica (Embeddings) y exactitud factual.

Ventajas
  • Permite evaluación a gran escala (miles de ejemplos)
  • Detección rápida de regresiones (si un cambio rompe algo)
  • Comparación objetiva entre modelos o prompts
  • Integrable en pipelines de CI/CD (LLMOps)
Limitaciones
  • No captura matices como creatividad o tono
  • Métricas de n-gramas (ROUGE) correlacionan mal con calidad humana
  • Requiere 'Ground Truth' (respuestas correctas de referencia)
  • Puede dar falsos negativos (respuesta correcta pero fraseada diferente)
Casos de uso principales
Clasificación de texto (Accuracy, F1-Score)
Extracción de entidades (Precision/Recall)
Resúmenes extractivos (ROUGE)
Sistemas de Q&A factual (Exact Match)
02
LLM como juez (LLM-as-a-Judge)

Usar un LLM potente (ej: GPT-4) para evaluar las respuestas de otro LLM según criterios definidos

Historia y contexto

Paper 'Judging LLM-as-a-Judge' (2023). Demostró que GPT-4 tiene una correlación >80% con evaluadores humanos expertos.

Ventajas
  • Evalúa aspectos subjetivos (coherencia, utilidad, seguridad)
  • Más barato y rápido que evaluación humana
  • No requiere respuestas de referencia exactas (reference-free)
  • Puede dar explicaciones detalladas de su evaluación
Limitaciones
  • Sesgo del juez (favoritismo hacia sus propias respuestas)
  • Coste computacional (multiplica x2 las llamadas)
  • El juez puede fallar en detectar errores sutiles de razonamiento
  • Dependencia de la calidad del prompt del juez
Casos de uso principales
Evaluar calidad de resúmenes o escritura creativa
Detectar alucinaciones o contenido toxico
Comparar dos modelos (A vs B) en chat abierto
Evaluar adherencia a instrucciones complejas
03
Evaluación Humana y A/B Testing

Obtener veredicto final sobre la calidad mediante juicio humano, ya sea expertos o usuarios finales en producción

Historia y contexto

El estándar de oro (Gold Standard) desde siempre. RLHF (Reinforcement Learning from Human Feedback) se basa enteramente en esto.

Ventajas
  • Única forma real de medir 'satisfacción de usuario'
  • Captura matices culturales, humor y contexto implícito
  • Genera datos de entrenamiento para futuros modelos (RLHF)
  • Detecta errores que pasan filtros automáticos
Limitaciones
  • Extremadamente lento y costoso
  • Subjetivo y poco escalable
  • Baja concordancia entre anotadores (inter-annotator agreement)
  • Difícil de reproducir exactamente
Casos de uso principales
Validación final antes de deployment crítico
A/B Testing en producción (Prompt A vs Prompt B)
Creación de datasets de preferencia para RLHF
Auditoría de seguridad y alineamiento