Competencia 06

Evaluación de modelos, QA y ética

Asegurar que el sistema no solo funcione, sino que sea seguro y preciso.

¿De qué se trata?

La evaluación es donde la lingüística computacional muestra su rigor científico. No basta con que un modelo "parezca" funcionar: necesitamos métricas objetivas, análisis de errores sistemático y consideraciones éticas sobre el impacto del sistema.

🎯

Objetividad

Las métricas automáticas permiten evaluar miles de ejemplos de forma consistente, eliminando la subjetividad humana.

⚖️

Comparabilidad

Permiten comparar diferentes sistemas sobre los mismos datos, identificando qué enfoques funcionan mejor.

🔄

Iteración

Guían el desarrollo: cada mejora se valida numéricamente, permitiendo progreso sistemático.

¿Por qué importa?

Un modelo mal evaluado puede causar daños reales: desde respuestas incorrectas en sistemas médicos hasta discriminación algorítmica. Los evaluadores con formación lingüística aportan una perspectiva crítica esencial.

Perfiles relacionados

Ingeniero de PLN Investigador en lingüística computacional

Consejos clave

•Nunca confíes solo en una métrica: usa múltiples perspectivas.
•Documenta las limitaciones conocidas del modelo.
•Incluye a personas diversas en la evaluación humana.
•El análisis de errores es más valioso que el número final de accuracy.

Habilidades específicas

📊

Métricas cuantitativas

Métricas fundamentales de clasificación y evaluación: precisión, cobertura, F1-Score, exactitud y matriz de confusión.

Precisión (Precision)

mide qué proporción de las predicciones positivas son correctas - crucial cuando los falsos positivos son costosos (ej: spam detection, donde marcar emails legítimos como spam es grave).

Cobertura (Recall)

mide qué proporción de los casos positivos reales fueron detectados - crucial cuando los falsos negativos son peligrosos (ej: detección de fraude, donde no detectar un fraude real es grave).

F1-Score

es la media armencia de precisión y cobertura, útil cuando necesitas un balance entre ambas.

Exactitud (Accuracy)

mide el porcentaje total de predicciones correctas, pero es engañosa con datos desbalanceados. La

matriz de confusión

visualiza todos los tipos de errores (verdaderos positivos, falsos positivos, verdaderos negativos, falsos negativos) y es fundamental para el análisis de errores.

Macro-F1 vs Micro-F1

: en clasificación multiclase, macro-F1 promedia el F1 de cada clase (trata todas igual), mientras micro-F1 agrega todos los ejemplos primero (favorece clases mayoritarias).

Cálculo de Precision/RecallAgregación Micro/MacroBalanceo de clasesValidación estadísticaBootstraping

Ejemplos prácticos

Evaluación de clasificador de sentimiento

Calcular precision, recall y F1 para detectar sentimiento negativo en reseñas de productos.

Escenario: Un e-commerce quiere priorizar reseñas negativas. Alto recall es crítico (no perder ninguna reseña negativa), pero precisión también importa (evitar falsos positivos que saturen al equipo).

NER con clases desbalanceadas

Usar macro-F1 para evaluar un extractor de entidades donde algunas clases (como ORGANIZACION) son mucho más frecuentes que otras (como PRODUCTO).

Escenario: Asegurar que el modelo funciona bien en todas las categorías, no solo en las mayoritarias.

Recursos para esta habilidad

Scikit-learn: Métricas de clasificacióndocumentacion

Precision and Recall (Wikipedia)documentacion

Understanding Evaluation Metricsarticulo

Hugging Face Evaluateherramienta

Guía Detallada

Precisión (Precision)

¿De todos los casos que el modelo predijo como positivos, cuántos realmente lo eran?

Historia y contexto

Métrica de calidad que mide la confiabilidad del modelo. Crítica cuando los falsos positivos son muy costosos.

Ventajas

●Evita falsas alarmas en spam
●Reduce diagnósticos erróneos costosos
●Mejora la confianza del usuario

Limitaciones

●Ignora los falsos negativos
●Puede ser engañosa si el modelo es muy conservador

Casos de uso principales

→Filtros de spam

→Moderación de contenido

→Sistemas de recomendación

Cobertura (Recall / Sensibilidad)

¿De todos los casos que realmente eran positivos, cuántos detectó el modelo?

Historia y contexto

Métrica de completitud que mide la exhaustividad. Crítica cuando los falsos negativos son peligrosos.

Ventajas

●No deja casos sin detectar
●Crucial en diagnósticos médicos vitales
●Evita fraudes que podrían pasar desapercibidos

Limitaciones

●Ignora los falsos positivos
●Puede generar demasiadas falsas alarmas

Casos de uso principales

→Detección de fraude

→Diagnóstico de cáncer

→Alertas de seguridad

F1-Score

Alcanzar un balance óptimo entre precisión y cobertura usando la media armónica.

Historia y contexto

Surge de la necesidad de tener una métrica única que penalice el desbalance extremo entre P y R.

Ventajas

●Métrica robusta y balanceada
●Ideal para datasets desbalanceados
●Penaliza modelos mediocres en una de las dos áreas

Limitaciones

●No distingue si el error viene de P o de R
●Menos intuitiva que la exactitud

Casos de uso principales

→Casi cualquier tarea de clasificación NLP

→Benchmarks de modelos

→Validación cruzada

Exactitud (Accuracy)

Porcentaje total de aciertos sobre el total de predicciones.

Historia y contexto

La métrica más intuitiva pero también la más peligrosa en el mundo real.

Ventajas

●Muy fácil de comunicar
●Ideal para clases balanceadas

Limitaciones

●Inútil en datasets desbalanceados
●La 'trampa' del 99% de aciertos en fraude

Casos de uso principales

→Clasificación de dígitos (MNIST)

→Sentiment Analysis balanceado

⚡

Métricas específicas por tarea

Métricas especializadas según la aplicación: BLEU y COMET para traducción, ROUGE para resumen, perplexity para modelos de lenguaje.

Para traducción automática

: BLEU mide n-gramas compartidos con referencias humanas (0-100, mayor es mejor) pero no captura semántica; COMET usa embeddings y correlaciona mejor con juicios humanos (-1 a 1); BLEURT es BERT fine-tuneado para quality estimation; chrF se basa en caracteres y funciona mejor para idiomas morfológicamente ricos; TER (Translation Edit Rate) mide las ediciones mínimas necesarias.

Para resumen

: ROUGE compara n-gramas y secuencias más largas entre resumen generado y referencia (ROUGE-1 unigramas, ROUGE-2 bigramas, ROUGE-L subsecuencias más largas); BERTScore usa similitud de embeddings contextuales.

Para modelos de lenguaje

: Perplexity mide qué tan "sorprendido" está el modelo ante texto real (menor es mejor, indica mejor modelado de probabilidades).

Para generación abierta

: Métricas automáticas son limitadas, a menudo se requiere evaluación humana con rúbricas de coherencia, relevancia, fluidez y factualidad.

Ejemplos prácticos

Comparar sistemas de traducción

Evaluar dos modelos de traducción ES→EN usando BLEU para comparación rápida y COMET para validación final, complementado con evaluación humana de fluidez.

Escenario: Decidir qué modelo desplegar en producción para un servicio de traducción.

Evaluar resúmenes automáticos

Usar ROUGE-2 y ROUGE-L para medir overlap con resúmenes de referencia, y BERTScore para capturar similitud semántica.

Escenario: Un medio de comunicación quiere automatizar resúmenes de artículos largos.

Monitorizar perplexity en fine-tuning

Seguir la perplexity en validation set durante el entrenamiento de un modelo de lenguaje para detectar overfitting.

Escenario: Entrenar un modelo de autocompletado para un dominio especializado.

Recursos para esta habilidad

BLEU: a Method for Automatic Evaluation (Paper original)articulo

COMET: Neural Framework for MT Evaluationherramienta

ROUGE: A Package for Automatic Evaluationarticulo

Métricas de traducción automáticadocumentacion

Evaluation of Text Generation: A Surveyarticulo

Datasets de evaluación y benchmarks

Conocimiento de datasets estándar para evaluar modelos: benchmarks multilingües, datasets de traducción, corpus de evaluación específicos por tarea.

Benchmarks generales

: GLUE y SuperGLUE para comprensión del lenguaje en inglés, XNLI y XTREME para evaluación multilingüe.

Datasets de traducción

: WMT (Workshop on Machine Translation) es el benchmark anual estándar con test sets para múltiples pares de idiomas; FLORES-200 cubre 200 idiomas con traducciones de alta calidad; OPUS es una mega-colección de corpus paralelos; ParaCrawl y CCMatrix contienen billones de pares de frases minados de la web.

Por tarea

: SQuAD y Natural Questions para QA, CNN/DailyMail para resumen, CoNLL para NER, IMDb y SST para análisis de sentimiento.

Calidad y consideraciones

: Los datasets de evaluación deben ser mantenidos privados (no usados en entrenamiento) para medir generalización real. Test sets pequeños pero de alta calidad (como FLORES) son más confiables que grandes datasets ruidosos (como ParaCrawl) para evaluación final.

Ejemplos prácticos

Evaluar modelo de traducción en WMT

Descargar el test set oficial de WMT2023 para el par EN→ES y calcular BLEU y COMET para comparar con el estado del arte publicado.

Escenario: Investigadores quieren publicar resultados comparables con otros sistemas de traducción.

Benchmark multilingüe con XNLI

Evaluar un modelo de inferencia natural en los 15 idiomas de XNLI para medir su capacidad de generalización cross-lingual.

Escenario: Validar que un modelo multilingüe realmente funciona en idiomas de bajos recursos, no solo en inglés.

Recursos para esta habilidad

WMT (Workshop on Machine Translation)documentacion

FLORES-200documentacion

OPUS: Corpus paralelosdocumentacion

Papers With Code Datasetsdocumentacion

Hugging Face Datasetsherramienta

Datasets de traduccióndocumentacion

KPIs de monitoreo en producción

Indicadores clave de rendimiento para sistemas de NLP en producción: latencia, throughput, tasa de error y satisfacción del usuario.

KPIs técnicos

: Latencia (p50, p95, p99 de tiempo de respuesta), throughput (requests/segundo), tasa de error (fallos técnicos), uso de recursos (CPU/GPU/memoria).

KPIs de negocio

: Tasa de resolución (% de consultas resueltas sin escalación humana), satisfacción del usuario (ratings, CSAT), tasa de abandono, tiempo de sesión.

KPIs de calidad

: Precisión en línea (validación de salidas en producción), tasa de fallback (% de veces que el sistema no puede responder), detección de drift (degradación del rendimiento con el tiempo).

Alertas

: Definir umbrales para alertas automáticas cuando las métricas se desvían de lo esperado.

Monitoreo de latencia end-to-endTracking de métricas de negocioDetección de drift de modeloA/B testing en producciónAnálisis de feedback de usuarios

Ejemplos prácticos

Dashboard de KPIs de chatbot

Monitorizar: latencia p95 < 2s, tasa de resolución > 70%, CSAT > 4.0, fallback rate < 15%.

Escenario: Un chatbot de soporte técnico necesita asegurar calidad de servicio continua.

Detección de degradación de modelo

Alertar cuando la precisión del clasificador de sentimiento cae más de 5% respecto a la baseline.

Escenario: Un modelo de análisis de reseñas necesita detectar cuando los datos cambian.

Recursos para esta habilidad

Prometheusherramienta

Grafanaherramienta

Evidently AIherramienta

Weights & Biasesherramienta

Evaluación humana vs. automática

Discernir cuándo una métrica automatizada es suficiente y cuándo se requiere evaluación cualitativa experta.

Ejemplos prácticos

Evaluación de chatbot

Diseñar una rúbrica para que evaluadores humanos califiquen respuestas por relevancia, cortesía y precisión.

Escenario: Lanzamiento de un asistente donde las métricas automáticas no capturan la calidad percibida.

Detección de sesgos y ética

Evaluación proactiva para identificar discriminación por género, raza o ideología en las respuestas del modelo.

Ejemplos prácticos

Audit de sesgos de género

Probar si un modelo de recomendación de empleo sugiere trabajos diferentes según el género del CV.

Escenario: Una empresa de RRHH quiere validar que su sistema no discrimina.

Recursos para esta habilidad

AI Fairness 360herramienta

Análisis de errores

Clasificación taxonómica de fallos: errores sintácticos, alucinaciones semánticas o falta de conocimiento del mundo.

Ejemplos prácticos

Taxonomía de errores de traducción

Clasificar errores en: omisiones, adiciones, errores léxicos, errores gramaticales, errores de registro.

Escenario: Un equipo de traducción automática quiere priorizar qué tipos de errores corregir primero.

Evaluación de modelos, QA y ética

¿De qué se trata?

Objetividad

Comparabilidad

Iteración

¿Por qué importa?

Perfiles relacionados

Consejos clave

Habilidades específicas

Métricas cuantitativas

Precisión (Precision)

Cobertura (Recall)

F1-Score

Exactitud (Accuracy)

matriz de confusión

Macro-F1 vs Micro-F1

Ejemplos prácticos

Evaluación de clasificador de sentimiento

NER con clases desbalanceadas

Recursos para esta habilidad

Guía Detallada

Precisión (Precision)

Historia y contexto

Ventajas

Limitaciones

Casos de uso principales

Cobertura (Recall / Sensibilidad)

Historia y contexto

Ventajas

Limitaciones

Casos de uso principales

F1-Score

Historia y contexto

Ventajas

Limitaciones

Casos de uso principales

Exactitud (Accuracy)

Historia y contexto

Ventajas

Limitaciones

Casos de uso principales

Métricas específicas por tarea

Para traducción automática

Para resumen

Para modelos de lenguaje

Para generación abierta

Ejemplos prácticos

Comparar sistemas de traducción

Evaluar resúmenes automáticos

Monitorizar perplexity en fine-tuning

Recursos para esta habilidad

Datasets de evaluación y benchmarks

Benchmarks generales

Datasets de traducción

Por tarea

Calidad y consideraciones

Ejemplos prácticos

Evaluar modelo de traducción en WMT

Benchmark multilingüe con XNLI

Recursos para esta habilidad

KPIs de monitoreo en producción

KPIs técnicos

KPIs de negocio

KPIs de calidad

Alertas

Ejemplos prácticos

Dashboard de KPIs de chatbot

Detección de degradación de modelo

Recursos para esta habilidad

Evaluación humana vs. automática

Ejemplos prácticos

Evaluación de chatbot

Detección de sesgos y ética

Ejemplos prácticos

Audit de sesgos de género

Recursos para esta habilidad

Análisis de errores

Ejemplos prácticos

Taxonomía de errores de traducción

Ingeniería de prompts y LLMs