Saltar al contenido
Fundamentos

Ingeniería lingüística

Donde el estudio del lenguaje humano se encuentra con la computación. El objetivo: enseñar a las máquinas a entender, procesar y generar lenguaje como lo hacemos nosotros.

💡

Nota de navegación

Este contenido asume familiaridad con conceptos de programación y matemáticas básicas, y se complementa con la teoría lingüística para una comprensión completa.

El panorama: IA, machine learning y deep learning

Entender sus diferencias es clave para comprender cómo funcionan los sistemas de lenguaje modernos.

PLN cruza todos

Haz clic en cada círculo para explorar

Deep Learning

Subcampo del ML basado en redes neuronales con muchas capas (profundas). Estas redes aprenden automáticamente qué características son relevantes, sin necesidad de ingeniería manual de features.

Ejemplo

GPT, BERT, Claude - modelos de lenguaje modernos

Contexto

Impulsado por tres factores: más datos disponibles (Internet), más potencia de cómputo (GPUs), y mejores algoritmos (backpropagation, attention). Domina PLN desde ~2018.

Tipos de machine learning

🏷️

Supervisado

Aprender de ejemplos etiquetados

Como enseñar a un niño con tarjetas: "esto es un perro", "esto es un gato"

🔍

No supervisado

Encontrar patrones ocultos sin guía

Como agrupar noticias por tema sin decirle cuáles son los temas

🎮

Por refuerzo

Aprender mediante prueba y error con recompensas

Como entrenar a una mascota: premios cuando hace algo bien

El pipeline de PLN

Casi cualquier sistema de lenguaje moderno pasa por estas etapas.

📥
Paso 1

Input crudo

El texto tal cual llega: con errores, HTML, emojis, URLs y problemas de codificación.

Ejemplo de input<p>Hola!!! cmo estás?? 😊 visita http://ejemplo.com</p>

Desafíos

  • HTML y markup
  • Emojis y caracteres especiales
  • URLs y menciones
  • Errores de codificación (UTF-8, Latin-1)

¿Por qué es importante?

Los datos del mundo real son sucios. Un sistema robusto debe manejar todo tipo de input sin romperse.

Paradigmas de resolución

Diferentes enfoques que hemos probado para enseñar a las máquinas a procesar lenguaje.

🧠
2017 - presente

Paradigma distribucional

Deep Learning con Transformers

"Voy a aprender una representación matemática del significado con atención"

Arquitecturas Transformer con mecanismo de atención que procesan todo el contexto en paralelo. Embeddings contextuales que cambian según el uso. Modelos como BERT entienden profundamente el lenguaje mediante pre-entrenamiento masivo.

La revolución llegó con Transformers (2017) y su mecanismo de atención, que permite al modelo "enfocarse" en las partes relevantes del contexto. BERT (2018) mostró que el pre-entrenamiento en texto masivo seguido de fine-tuning revoluciona todas las tareas. Los embeddings ahora son contextuales: "banco" tiene representaciones diferentes en "banco de peces" vs "banco de dinero".

Ventajas

  • Entiende significados profundos, sinónimos y analogías contextuales
  • Rendimiento superior en prácticamente todas las tareas
  • Captura contexto largo y dependencias complejas
  • Transfer learning: pre-entrenar una vez, adaptar a muchas tareas

Desventajas

  • Requiere enormes cantidades de datos y cómputo para pre-entrenar
  • Es una "caja negra" difícil de interpretar
  • Puede aprender y amplificar sesgos del entrenamiento
  • Costoso de entrenar desde cero (democratizado con modelos pre-entrenados)

Dónde se usa hoy

⚙️ Cómo ejecuta el Pipeline de PLN

📥 Input

Texto sin etiquetar masivo (Wikipedia, libros, web)

🧹 Preprocesamiento

Limpieza mínima, normalización Unicode, manejo de caracteres especiales

✂️ Tokenización

Subword tokenization (BPE, WordPiece): balance palabras comunes/raras

🔢 Vectorización

Embeddings contextuales densos (~768 dims) que cambian según contexto

🧠 Modelado

Transformers con capas de atención multi-cabezal + feed-forward, aprenden automáticamente

Arquitectura dominante: Transformers (2017-presente)

Usan un mecanismo de Atención que permite prestar más atención a las palabras importantes del contexto. Es la base de BERT, RoBERTa y la fundación sobre la que se construyen los LLMs generativos.

🎬 Visualización: El mecanismo de Atención

El mecanismo de atención permite a los modelos enfocarse en las partes relevantes del texto al procesar cada palabra. Esta innovación revolucionó el PLN y es la base de prácticamente todos los modelos modernos.

El desafío: ¿por qué es tan difícil?

El lenguaje humano tiene características que lo hacen especialmente complicado para las máquinas.

La ambigüedad

El código de programación es inequívoco; el lenguaje humano raramente lo es.

📝

Léxica

"banco" (asiento / dinero / peces)

Una palabra, varios significados

🔀

Sintáctica

"Vi al hombre con el telescopio"

¿Quién tiene el telescopio?

Semántica

"Era demasiado grande"

¿Qué era grande?

🎭

Pragmática

"¡Qué día tan hermoso!" (con ironía)

Significado literal ≠ intención

Solución moderna: Los embeddings contextuales (BERT, GPT) asignan representaciones diferentes a la misma palabra según su contexto, resolviendo gran parte de la ambigüedad léxica automáticamente.

Ley de Zipf

Pocas palabras aparecen muchísimo mientras la mayoría aparece muy poco. Esto dificulta que los modelos aprendan palabras raras.

Soluciones: Tokenización por sub-palabras y transfer learning (pre-entrenar con corpus masivos).

Dependencia del Contexto

El significado no es la suma de las partes. "Estirar la pata" no tiene nada que ver con extremidades.

Las negaciones, modificadores y referencias requieren procesamiento sofisticado.

Ética y responsabilidad

Los sistemas de lenguaje tienen impacto social directo.

⚖️

Sesgos

Los modelos heredan prejuicios de los textos de entrenamiento.

Ejemplos de problemas
  • Sesgos de género: "doctor" → hombre, "enfermera" → mujer
  • Sesgos raciales en clasificación de discurso de odio
  • Asociaciones estereotípicas aprendidas de internet
Aproximaciones de solución

Auditorías de sesgo, datasets balanceados, técnicas de debiasing, diversidad en equipos de desarrollo.

📰

Desinformación

Capacidad de generar texto falso convincente a gran escala.

Ejemplos de problemas
  • Fake news automatizadas
  • Deepfakes de texto
  • Manipulación de opinión pública
  • Suplantación de identidad
Aproximaciones de solución

Watermarking de texto generado, detectores de IA, educación mediática, regulación de uso.

🔒

Privacidad

Riesgo de memorizar y filtrar datos sensibles del entrenamiento.

Ejemplos de problemas
  • Extracción de información personal
  • Memorización de secretos industriales
  • Reproducción de datos protegidos por copyright
Aproximaciones de solución

Filtrado de datos sensibles, técnicas de privacidad diferencial, auditorías de memorización, consentimiento informado.

🌍

Accesibilidad

Muchos sistemas funcionan mal para lenguas minoritarias y variantes dialectales.

Ejemplos de problemas
  • Inglés: ~90% de rendimiento. Lenguas minoritarias: <40%
  • Acentos y dialectos ignorados
  • Exclusión de comunidades no anglófonas
Aproximaciones de solución

Inversión en datasets multilingües, modelos específicos para lenguas de bajos recursos, colaboración con comunidades locales.

Principios para desarrollo responsable

🔍
Transparencia

Documenta limitaciones, sesgos conocidos y fuentes de datos.

👥
Inclusión

Equipos diversos y pruebas con comunidades afectadas.

🛡️
Mitigación

Implementa filtros, monitoreo continuo y mecanismos de reporte.