Evaluación de modelos, QA y ética
Asegurar que el sistema no solo funcione, sino que sea seguro y preciso.
¿De qué se trata?
La evaluación es donde la lingüística computacional muestra su rigor científico. No basta con que un modelo "parezca" funcionar: necesitamos métricas objetivas, análisis de errores sistemático y consideraciones éticas sobre el impacto del sistema.
Objetividad
Las métricas automáticas permiten evaluar miles de ejemplos de forma consistente, eliminando la subjetividad humana.
Comparabilidad
Permiten comparar diferentes sistemas sobre los mismos datos, identificando qué enfoques funcionan mejor.
Iteración
Guían el desarrollo: cada mejora se valida numéricamente, permitiendo progreso sistemático.
¿Por qué importa?
Un modelo mal evaluado puede causar daños reales: desde respuestas incorrectas en sistemas médicos hasta discriminación algorítmica. Los evaluadores con formación lingüística aportan una perspectiva crítica esencial.
Perfiles relacionados
Consejos clave
- •Nunca confíes solo en una métrica: usa múltiples perspectivas.
- •Documenta las limitaciones conocidas del modelo.
- •Incluye a personas diversas en la evaluación humana.
- •El análisis de errores es más valioso que el número final de accuracy.
Habilidades específicas
Métricas cuantitativas
Métricas fundamentales de clasificación y evaluación: precisión, cobertura, F1-Score, exactitud y matriz de confusión.
Precisión (Precision)
mide qué proporción de las predicciones positivas son correctas - crucial cuando los falsos positivos son costosos (ej: spam detection, donde marcar emails legítimos como spam es grave).
Cobertura (Recall)
mide qué proporción de los casos positivos reales fueron detectados - crucial cuando los falsos negativos son peligrosos (ej: detección de fraude, donde no detectar un fraude real es grave).
F1-Score
es la media armencia de precisión y cobertura, útil cuando necesitas un balance entre ambas.
Exactitud (Accuracy)
mide el porcentaje total de predicciones correctas, pero es engañosa con datos desbalanceados. La
matriz de confusión
visualiza todos los tipos de errores (verdaderos positivos, falsos positivos, verdaderos negativos, falsos negativos) y es fundamental para el análisis de errores.
Macro-F1 vs Micro-F1
: en clasificación multiclase, macro-F1 promedia el F1 de cada clase (trata todas igual), mientras micro-F1 agrega todos los ejemplos primero (favorece clases mayoritarias).
Ejemplos prácticos
Evaluación de clasificador de sentimiento
Calcular precision, recall y F1 para detectar sentimiento negativo en reseñas de productos.
Escenario: Un e-commerce quiere priorizar reseñas negativas. Alto recall es crítico (no perder ninguna reseña negativa), pero precisión también importa (evitar falsos positivos que saturen al equipo).
NER con clases desbalanceadas
Usar macro-F1 para evaluar un extractor de entidades donde algunas clases (como ORGANIZACION) son mucho más frecuentes que otras (como PRODUCTO).
Escenario: Asegurar que el modelo funciona bien en todas las categorías, no solo en las mayoritarias.
Recursos para esta habilidad
Guía Detallada
Precisión (Precision)
¿De todos los casos que el modelo predijo como positivos, cuántos realmente lo eran?
Historia y contexto
Métrica de calidad que mide la confiabilidad del modelo. Crítica cuando los falsos positivos son muy costosos.
Ventajas
- ●Evita falsas alarmas en spam
- ●Reduce diagnósticos erróneos costosos
- ●Mejora la confianza del usuario
Limitaciones
- ●Ignora los falsos negativos
- ●Puede ser engañosa si el modelo es muy conservador
Casos de uso principales
Cobertura (Recall / Sensibilidad)
¿De todos los casos que realmente eran positivos, cuántos detectó el modelo?
Historia y contexto
Métrica de completitud que mide la exhaustividad. Crítica cuando los falsos negativos son peligrosos.
Ventajas
- ●No deja casos sin detectar
- ●Crucial en diagnósticos médicos vitales
- ●Evita fraudes que podrían pasar desapercibidos
Limitaciones
- ●Ignora los falsos positivos
- ●Puede generar demasiadas falsas alarmas
Casos de uso principales
F1-Score
Alcanzar un balance óptimo entre precisión y cobertura usando la media armónica.
Historia y contexto
Surge de la necesidad de tener una métrica única que penalice el desbalance extremo entre P y R.
Ventajas
- ●Métrica robusta y balanceada
- ●Ideal para datasets desbalanceados
- ●Penaliza modelos mediocres en una de las dos áreas
Limitaciones
- ●No distingue si el error viene de P o de R
- ●Menos intuitiva que la exactitud
Casos de uso principales
Exactitud (Accuracy)
Porcentaje total de aciertos sobre el total de predicciones.
Historia y contexto
La métrica más intuitiva pero también la más peligrosa en el mundo real.
Ventajas
- ●Muy fácil de comunicar
- ●Ideal para clases balanceadas
Limitaciones
- ●Inútil en datasets desbalanceados
- ●La 'trampa' del 99% de aciertos en fraude
Casos de uso principales
Métricas específicas por tarea
Métricas especializadas según la aplicación: BLEU y COMET para traducción, ROUGE para resumen, perplexity para modelos de lenguaje.
Para traducción automática
: BLEU mide n-gramas compartidos con referencias humanas (0-100, mayor es mejor) pero no captura semántica; COMET usa embeddings y correlaciona mejor con juicios humanos (-1 a 1); BLEURT es BERT fine-tuneado para quality estimation; chrF se basa en caracteres y funciona mejor para idiomas morfológicamente ricos; TER (Translation Edit Rate) mide las ediciones mínimas necesarias.
Para resumen
: ROUGE compara n-gramas y secuencias más largas entre resumen generado y referencia (ROUGE-1 unigramas, ROUGE-2 bigramas, ROUGE-L subsecuencias más largas); BERTScore usa similitud de embeddings contextuales.
Para modelos de lenguaje
: Perplexity mide qué tan "sorprendido" está el modelo ante texto real (menor es mejor, indica mejor modelado de probabilidades).
Para generación abierta
: Métricas automáticas son limitadas, a menudo se requiere evaluación humana con rúbricas de coherencia, relevancia, fluidez y factualidad.
Ejemplos prácticos
Comparar sistemas de traducción
Evaluar dos modelos de traducción ES→EN usando BLEU para comparación rápida y COMET para validación final, complementado con evaluación humana de fluidez.
Escenario: Decidir qué modelo desplegar en producción para un servicio de traducción.
Evaluar resúmenes automáticos
Usar ROUGE-2 y ROUGE-L para medir overlap con resúmenes de referencia, y BERTScore para capturar similitud semántica.
Escenario: Un medio de comunicación quiere automatizar resúmenes de artículos largos.
Monitorizar perplexity en fine-tuning
Seguir la perplexity en validation set durante el entrenamiento de un modelo de lenguaje para detectar overfitting.
Escenario: Entrenar un modelo de autocompletado para un dominio especializado.
Datasets de evaluación y benchmarks
Conocimiento de datasets estándar para evaluar modelos: benchmarks multilingües, datasets de traducción, corpus de evaluación específicos por tarea.
Benchmarks generales
: GLUE y SuperGLUE para comprensión del lenguaje en inglés, XNLI y XTREME para evaluación multilingüe.
Datasets de traducción
: WMT (Workshop on Machine Translation) es el benchmark anual estándar con test sets para múltiples pares de idiomas; FLORES-200 cubre 200 idiomas con traducciones de alta calidad; OPUS es una mega-colección de corpus paralelos; ParaCrawl y CCMatrix contienen billones de pares de frases minados de la web.
Por tarea
: SQuAD y Natural Questions para QA, CNN/DailyMail para resumen, CoNLL para NER, IMDb y SST para análisis de sentimiento.
Calidad y consideraciones
: Los datasets de evaluación deben ser mantenidos privados (no usados en entrenamiento) para medir generalización real. Test sets pequeños pero de alta calidad (como FLORES) son más confiables que grandes datasets ruidosos (como ParaCrawl) para evaluación final.
Ejemplos prácticos
Evaluar modelo de traducción en WMT
Descargar el test set oficial de WMT2023 para el par EN→ES y calcular BLEU y COMET para comparar con el estado del arte publicado.
Escenario: Investigadores quieren publicar resultados comparables con otros sistemas de traducción.
Benchmark multilingüe con XNLI
Evaluar un modelo de inferencia natural en los 15 idiomas de XNLI para medir su capacidad de generalización cross-lingual.
Escenario: Validar que un modelo multilingüe realmente funciona en idiomas de bajos recursos, no solo en inglés.
KPIs de monitoreo en producción
Indicadores clave de rendimiento para sistemas de NLP en producción: latencia, throughput, tasa de error y satisfacción del usuario.
KPIs técnicos
: Latencia (p50, p95, p99 de tiempo de respuesta), throughput (requests/segundo), tasa de error (fallos técnicos), uso de recursos (CPU/GPU/memoria).
KPIs de negocio
: Tasa de resolución (% de consultas resueltas sin escalación humana), satisfacción del usuario (ratings, CSAT), tasa de abandono, tiempo de sesión.
KPIs de calidad
: Precisión en línea (validación de salidas en producción), tasa de fallback (% de veces que el sistema no puede responder), detección de drift (degradación del rendimiento con el tiempo).
Alertas
: Definir umbrales para alertas automáticas cuando las métricas se desvían de lo esperado.
Ejemplos prácticos
Dashboard de KPIs de chatbot
Monitorizar: latencia p95 < 2s, tasa de resolución > 70%, CSAT > 4.0, fallback rate < 15%.
Escenario: Un chatbot de soporte técnico necesita asegurar calidad de servicio continua.
Detección de degradación de modelo
Alertar cuando la precisión del clasificador de sentimiento cae más de 5% respecto a la baseline.
Escenario: Un modelo de análisis de reseñas necesita detectar cuando los datos cambian.
Recursos para esta habilidad
Evaluación humana vs. automática
Discernir cuándo una métrica automatizada es suficiente y cuándo se requiere evaluación cualitativa experta.
Ejemplos prácticos
Evaluación de chatbot
Diseñar una rúbrica para que evaluadores humanos califiquen respuestas por relevancia, cortesía y precisión.
Escenario: Lanzamiento de un asistente donde las métricas automáticas no capturan la calidad percibida.
Detección de sesgos y ética
Evaluación proactiva para identificar discriminación por género, raza o ideología en las respuestas del modelo.
Ejemplos prácticos
Audit de sesgos de género
Probar si un modelo de recomendación de empleo sugiere trabajos diferentes según el género del CV.
Escenario: Una empresa de RRHH quiere validar que su sistema no discrimina.
Recursos para esta habilidad
Análisis de errores
Clasificación taxonómica de fallos: errores sintácticos, alucinaciones semánticas o falta de conocimiento del mundo.
Ejemplos prácticos
Taxonomía de errores de traducción
Clasificar errores en: omisiones, adiciones, errores léxicos, errores gramaticales, errores de registro.
Escenario: Un equipo de traducción automática quiere priorizar qué tipos de errores corregir primero.