Competencia 01

Gestión de datos y curación de corpus

El activo más crítico de la IA es la calidad de los datos. Un profesional debe dominar el ciclo de vida del dato lingüístico.

¿De qué se trata?

La gestión de datos y curación de corpus es la columna vertebral de cualquier proyecto de PLN. Sin datos de calidad, incluso los modelos más sofisticados producen resultados mediocres. Esta competencia abarca desde la recolección y limpieza de datos hasta su estructuración, etiquetado y mantenimiento a largo plazo.

¿Por qué importa?

En la era de los LLMs, la diferencia entre un sistema que funciona y uno excelente está en los datos. Las empresas buscan profesionales que entiendan no solo cómo procesar datos, sino cómo garantizar su calidad, representatividad y cumplimiento normativo.

Perfiles relacionados

Científico de Datos Lingüísticos Anotador y Curador de Datos

Consejos clave

•Documenta siempre el proceso de creación del corpus: futuro tú te lo agradecerá.
•Empieza con un subconjunto pequeño para validar el esquema de anotación antes de escalar.
•Involucra a expertos del dominio en la definición de categorías.
•Considera la diversidad: un corpus sesgado produce modelos sesgados.

Habilidades específicas

Ingeniería de corpus

Creación, diseño y etiquetado de conjuntos de datos lingüísticos con herramientas como Prodigy, Label Studio y Doccano.

Herramientas principales

: Prodigy (active learning para anotación eficiente), Label Studio (open source multi-tipo), Doccano (anotación colaborativa de textos), INCEpTION (anotación semántica avanzada).

Muestreo representativoDiseño de guías de anotaciónLimpieza de ruidoNormalización de formatosManejo de herramientas de etiquetado

Ejemplos prácticos

Corpus de opiniones de producto con Label Studio

Diseñar un corpus de 50K reseñas etiquetadas por sentimiento (positivo/negativo/neutro) para entrenar un clasificador. Usar Label Studio para crear interfaz de anotación con 3 etiquetas, coordinar a 5 anotadores, y alcanzar Kappa de Cohen > 0.8. Exportar dataset balanceado (33% cada clase) en formato JSON para fine-tuning de BERT.

Escenario: Una empresa de e-commerce con 2M de reseñas necesita analizar automáticamente las opiniones de sus clientes y priorizar respuestas a quejas.

Corpus multilingüe paralelo para traducción

Crear un conjunto de 100K pares de oraciones alineadas en español-catalán extraídos de documentos oficiales. Usar scripts de Python para alinear párrafos, validar con anotadores bilingües, y aplicar filtros de calidad (longitud, puntuación). Resultado: dataset limpio con 85K pares de alta calidad en formato CoNLL.

Escenario: Un proyecto de investigación en lenguas cooficiales requiere entrenar modelos de traducción neuronal para lenguas con pocos recursos.

Recursos para esta habilidad

Prodigyherramienta

Label Studioherramienta

Doccanoherramienta

INCEpTIONherramienta

Ejemplo de XML para etiquetadodocumentacion

Herramientas de anotación y corpusherramienta

Competencia: anotación lingüísticadocumentacion

Corpus lingüísticos disponiblesdocumentacion

Curación avanzada

Limpieza de sesgos (debiasing), eliminación de duplicados y cumplimiento normativo de privacidad (GDPR) con herramientas como Presidio, Cleanlab y Perspective API.

Herramientas clave

: Presidio (anonimización de PII), Cleanlab (detección de etiquetas incorrectas), Perspective API (detección de toxicidad), Dedupe (deduplicación avanzada).

Anonimización (PII)Debiasing algorítmicoDeduplicación de registrosFiltrado de lenguaje tóxicoAuditoría de representación

Ejemplos prácticos

Anonimización de 100K historiales clínicos con Presidio

Procesar 100K historiales médicos en español con Presidio para detectar y enmascarar: nombres de pacientes (15K instancias), DNI/NIE (8K), direcciones (12K), teléfonos (6K), fechas de nacimiento (10K). Validar con expertos médicos que no se pierde contexto clínico relevante. Reducir el recall de PII de 98% a <0.5% tras anonimización.

Escenario: Un hospital con 500K historiales quiere entrenar un modelo de NER médico cumpliendo GDPR y normativa sanitaria española (LOPD).

Detección y eliminación de lenguaje tóxico con Perspective API

Analizar 2M de comentarios de redes sociales con Perspective API, detectar 85K comentarios con toxicidad > 0.7, filtrar 12K con lenguaje ofensivo severo. Aplicar filtros adicionales por sesgo de género y etnia. Resultado: dataset limpio de 1.9M comentarios para entrenar chatbot empresarial.

Escenario: Una empresa de atención al cliente quiere entrenar un chatbot en conversaciones reales sin que aprenda lenguaje inapropiado.

Deduplicación de corpus con MinHash

Aplicar algoritmo MinHash a 5M de artículos de noticias, detectar 320K duplicados exactos y 180K cuasi-duplicados (similitud > 90%). Reducir dataset a 4.5M documentos únicos, mejorando la diversidad del corpus en 12% según métricas de entropía léxica.

Escenario: Un proyecto de investigación en generación de texto necesita un corpus diverso sin redundancia que sesgue el modelo.

Recursos para esta habilidad

Presidioherramienta

Cleanlabherramienta

Perspective API (Google)herramienta

Dedupeherramienta

Herramientas de privacidad y anonimizaciónherramienta

Guía de GDPR para datos lingüísticosdocumentacion

Consistencia de datos

Implementación de protocolos de Acuerdo entre Anotadores (IAA) con métricas como Kappa de Cohen, Alpha de Krippendorff y herramientas estadísticas.

Herramientas

: scikit-learn (cohen_kappa_score), nltk.metrics.agreement (Krippendorff), statsmodels (fleiss_kappa), scripts personalizados para análisis de confusión.

Cálculo de Kappa de CohenAlpha de KrippendorffResolución de discrepanciasAdjudicación de etiquetasValidación cruzada de anotación

Ejemplos prácticos

Validación de etiquetado de emociones con Kappa de Cohen

Calcular el acuerdo entre 3 anotadores que clasificaron 1000 tweets en 6 categorías emocionales (alegría, tristeza, enfado, miedo, sorpresa, asco). Primera ronda: Kappa promedio = 0.62 (acuerdo moderado). Tras refinar guía de anotación con 20 ejemplos frontera: Kappa = 0.81 (acuerdo sustancial). Resolver 85 casos de desacuerdo mediante adjudicación por experto.

Escenario: Un equipo de investigación en análisis de emociones necesita validar su esquema de anotación antes de escalar a 50K tweets.

IAA en anotación de NER médico con Alpha de Krippendorff

Evaluar acuerdo de 5 anotadores etiquetando entidades médicas (enfermedad, síntoma, medicamento, dosis) en 500 informes clínicos. Usar Alpha de Krippendorff (apropiado para datos faltantes): α = 0.74. Identificar confusión entre "síntoma" y "enfermedad" (30% de desacuerdos). Añadir decisión tree a la guía. Segunda ronda: α = 0.88.

Escenario: Un hospital desarrolla un sistema de NER para historiales clínicos y necesita corpus confiable con múltiples anotadores.

Recursos para esta habilidad

scikit-learn Metricsherramienta

NLTK Metricsherramienta

Competencia: anotación lingüísticadocumentacion

Competencia: evaluación de modelosdocumentacion

Gestión de metadatos

Creación de recursos léxicos estructurados como diccionarios, taxonomías y ontologías con estándares Dublin Core, Schema.org y JSON-LD.

Herramientas

: Protégé (ontologías OWL), Apache Jena (RDF/SPARQL), JSON-LD para datos enlazados, DVC para versionado de datasets.

Mapeo a Dublin CoreModelado de taxonomíasEstructuración XML/JSON-LDVersionado de datasetsDocumentación de provenance

Ejemplos prácticos

Sistema de metadatos Dublin Core para corpus multilingüe

Diseñar esquema de metadatos Dublin Core para 200K documentos en 5 idiomas: incluir dc:title, dc:creator, dc:date, dc:language (ISO 639-1), dc:type (género textual: noticia/opinión/científico), dc:subject (temática con taxonomía propia de 50 categorías). Implementar en XML y JSON-LD. Permitir búsquedas avanzadas por fecha, idioma, género y tema.

Escenario: Una biblioteca digital académica necesita organizar y catalogar corpus lingüísticos diversos para investigadores.

Versionado de datasets con DVC (Data Version Control)

Aplicar DVC a corpus de 80GB con 15 versiones a lo largo de 2 años: rastrear cambios en anotaciones (v1.0: 10K docs, v2.0: +5K docs, v3.0: corrección de 2K etiquetas), vincular cada versión a modelos entrenados, documentar provenance (quién, cuándo, por qué). Reducir almacenamiento redundante en 65% con deduplicación inteligente.

Escenario: Un equipo industrial mantiene un corpus en evolución y necesita reproducibilidad de experimentos con versiones históricas.

Recursos para esta habilidad

Dublin Coredocumentacion

Schema.orgdocumentacion

Protégéherramienta

DVC (Data Version Control)herramienta

JSON-LDdocumentacion

Herramientas de gestión de metadatosherramienta

Manipulación de datos con Python

Uso profesional de Pandas (manipulación de datos tabulares), NumPy (operaciones numéricas) y Polars (procesamiento de datos a gran escala).

Carga de archivos (CSV/Parquet)Limpieza de NaNsVectorización de operacionesFusión de DataFramesAnálisis exploratorio (EDA)

Ejemplos prácticos

Pipeline completo de limpieza con Pandas

Cargar CSV con 500K tweets (85MB): (1) eliminar 45K duplicados exactos con drop_duplicates(), (2) filtrar por idioma español usando langdetect (retener 380K), (3) eliminar URLs y menciones con regex, (4) detectar y eliminar 8K tweets con <10 caracteres, (5) normalizar texto (lowercase, sin acentos), (6) exportar a Parquet comprimido (22MB, 3x más rápido de leer). Tiempo total: 4 minutos.

Escenario: Un equipo recibe un dataset de Twitter para entrenar clasificador de sentimiento y necesita prepararlo con pipeline reproducible.

Análisis exploratorio (EDA) con Pandas y NumPy

Analizar 200K reseñas de productos: calcular distribución de longitud (media=85 tokens, std=42, percentil 95=180), frecuencia de palabras con Counter (top-10 más comunes), correlación longitud-rating (r=0.23), identificar outliers (1.2K textos con >500 tokens). Crear histogramas con Matplotlib. Detectar sesgo: 65% reseñas positivas, 20% negativas, 15% neutrales → necesario balanceo.

Escenario: Antes de entrenar un modelo de análisis de sentimiento, el equipo debe entender las características estadísticas del corpus para diseñar preprocesamiento y detectar sesgos.

Procesamiento masivo con Polars

Procesar 50M de oraciones (12GB) para filtrar por longitud 5-30 tokens y detectar idioma. Con Pandas: 45 min + 18GB RAM. Con Polars: 8 min + 6GB RAM (5.6x más rápido, 3x menos memoria). Usar lazy evaluation con scan_csv() y streaming para no cargar todo en RAM. Exportar a Parquet particionado por idioma.

Escenario: Un proyecto de traducción automática necesita filtrar corpus masivo de Common Crawl manteniendo solo oraciones válidas y en idiomas objetivo.