Saltar al contenido
Tareas de PLN

Áreas emergentes

Líneas de trabajo que están ampliando qué pueden hacer los sistemas lingüísticos y cómo se evalúan sus límites.

🚀¿Qué son las áreas emergentes?

Las áreas emergentes representan líneas de investigación que hoy están reconfigurando el PLN. Interesan no solo por novedad técnica, sino porque obligan a repensar evaluación, seguridad, contexto y división del trabajo entre sistema y supervisión humana.

Del chatbot al agente

Estamos pasando de modelos que solo responden preguntas a sistemas que pueden planificar, usar herramientas y encadenar pasos. La pregunta importante ya no es solo qué hacen, sino bajo qué condiciones merece la pena confiar en ellos.

Por qué conviene mirarlas de cerca

Estas áreas avanzan deprisa, pero el interés de LinguAI no está en celebrar velocidad, sino en entender qué problema resuelven, qué simplifican y qué errores nuevos introducen.

Fronteras de investigación

🎨

Multimodalidad

Integración de texto, imagen, audio y video en representaciones compartidas para relacionar señales distintas dentro de una misma tarea.

💡 Cómo funciona

Los modelos aprenden a representar texto, imágenes y audio en el mismo "lenguaje interno" (espacio vectorial compartido). Así pueden relacionar una foto de un gato con la palabra "gato" y el sonido "miau".

Modelos vision-language

Entienden imágenes y texto simultáneamente

Ejemplo: GPT-4 Vision, Gemini, Claude 3 - puedes subir una foto y preguntarle qué es

Text-to-image

Generan imágenes realistas desde descripciones

Ejemplo: DALL-E, Midjourney, Stable Diffusion - "un gato astronauta pintado por Van Gogh"

Video understanding

Analizan y describen videos completos

Ejemplo: Video-LLaMA, Gemini 1.5 - "resume este video de 2 horas"

🚧 Desafíos actuales

Alinear diferentes modalidadesRazonamiento entre imágenes y textoGeneración coherente de videos largos
🔮 Hacia dónde vamos

Hacia sistemas que relacionen mejor texto, imagen, audio y video sin tratar cada modalidad como una isla.

Aplicaciones

Búsqueda visual ("encuentra productos similares a esta foto")Accesibilidad (describe imágenes para ciegos)Edición creativa automáticaDiagnóstico médico con imágenes
🧩

Razonamiento y resolución de problemas

Técnicas que permiten a los modelos resolver problemas complejos paso a paso, como lo haría un humano pensando en voz alta.

💡 Cómo funciona

En lugar de dar una respuesta directa, el modelo "piensa" explícitamente: descompone el problema, explora soluciones, verifica resultados. Chain-of-Thought hace que el modelo escriba su razonamiento antes de responder.

Chain-of-Thought (CoT)

El modelo muestra su razonamiento paso a paso

Ejemplo: "Pensemos paso a paso: primero..., luego..., por lo tanto..." - mejora precisión en matemáticas

Tree-of-Thoughts

Explora múltiples caminos de razonamiento en paralelo

Ejemplo: Como jugar ajedrez: evalúa varias estrategias antes de elegir la mejor

Tool use

Usa calculadoras, APIs o código para verificar respuestas

Ejemplo: Claude puede escribir y ejecutar código Python para hacer cálculos complejos

🚧 Desafíos actuales

Errores se acumulan en cadenas largasRazonamiento sobre conocimiento no vistoVerificación automática de respuestas
🔮 Hacia dónde vamos

Modelos más útiles para descomponer problemas, contrastar pasos y apoyarse en herramientas externas con menos errores acumulados.

Aplicaciones

ChatGPT resolviendo problemas de físicaClaude Sonnet programando aplicaciones completasGPT-4 analizando casos legales complejosPlanificación estratégica en negocios
🤖

Agentes con ejecución automatizada

Sistemas que pueden planificar, usar herramientas, navegar interfaces y completar tareas complejas con distintos grados de automatización.

💡 Cómo funciona

Un agente recibe un objetivo ("reserva vuelos a París"), planifica los pasos necesarios, ejecuta acciones (buscar vuelos, comparar precios, rellenar formularios), observa resultados y ajusta el plan. Puede usar APIs, navegar webs o escribir código.

Uso de herramientas

Llaman APIs, ejecutan código, buscan en internet

Ejemplo: LangChain permite que GPT busque en Google, lea PDFs o consulte bases de datos

Navegación web

Controlan navegadores como un humano

Ejemplo: GPT-4 + Selenium puede comprar productos online siguiendo instrucciones

Multi-agente

Varios agentes especializados colaboran

Ejemplo: CrewAI: un "investigador" busca info, un "escritor" redacta, un "editor" revisa

🚧 Desafíos actuales

Errores en ejecución (sitios cambian, APIs fallan)Bucles infinitosSeguridad (¿qué pueden hacer?)
🔮 Hacia dónde vamos

Sistemas capaces de automatizar flujos más largos, aunque todavía con necesidad de supervisión, límites de seguridad y validación.

Aplicaciones

Devin (agente que programa software completo)AutoGPT (planifica y ejecuta tareas complejas)Agentes de atención al cliente end-to-endResearch assistants que leen papers y escriben informes
🛡️

Alineación y seguridad

Asegurar que los modelos se comporten según las intenciones humanas y eviten generar contenido dañino, sesgado o peligroso.

💡 Cómo funciona

Después de entrenar el modelo base, se usa Reinforcement Learning from Human Feedback (RLHF): humanos califican respuestas, el modelo aprende a maximizar la satisfacción humana. También hay técnicas de "red teaming" donde se intenta hackear el modelo para encontrar debilidades.

RLHF

Entrenamiento con feedback humano sobre qué respuestas son mejores

Ejemplo: ChatGPT aprende a ser útil, honesto y inofensivo gracias a evaluadores humanos

Constitutional AI

El modelo se auto-critica y corrige según principios éticos

Ejemplo: Claude de Anthropic usa una "constitución" de valores para guiarse sin supervisión constante

Red teaming

Expertos intentan romper el modelo para encontrar fallos

Ejemplo: OpenAI paga a hackers para que intenten hacer que GPT genere contenido prohibido

🚧 Desafíos actuales

Definir qué es "comportamiento correcto" (varía por cultura)Jailbreaks creativosSesgos heredados de datos de entrenamiento
🔮 Hacia dónde vamos

Sistemas mejor ajustados a criterios de seguridad, transparencia y límites declarados, incluso fuera de escenarios controlados.

Aplicaciones

Chatbots aptos para menoresSistemas de salud mental segurosModeración automática de contenidoIA en aplicaciones críticas (medicina, finanzas)

Eficiencia y personalización

Hacer los modelos más pequeños, rápidos y adaptables, permitiendo ejecutarlos localmente o personalizarlos con bajo costo.

💡 Cómo funciona

Técnicas como LoRA (Low-Rank Adaptation) permiten ajustar modelos entrenando solo una pequeña fracción de parámetros. Cuantización reduce la precisión numérica (de 32 bits a 4 bits) sin perder mucha calidad. Destilación transfiere conocimiento de modelos grandes a pequeños.

LoRA y QLoRA

Fine-tuning eficiente entrenando solo adaptadores pequeños

Ejemplo: Personalizar Llama 3 con tus datos en una GPU normal en horas en vez de días

Cuantización

Reduce tamaño del modelo usando menos bits por parámetro

Ejemplo: Llama 2-70B cuantizado a 4-bit cabe en 35GB en vez de 140GB

Destilación

Modelos pequeños aprenden de modelos grandes

Ejemplo: DistilBERT es 60% más pequeño que BERT pero mantiene 97% de capacidad

🚧 Desafíos actuales

Balance calidad vs tamañoFragmentación (muchos modelos especializados)Validación de modelos destilados
🔮 Hacia dónde vamos

Modelos más pequeños y adaptables para contextos locales, dominios específicos y restricciones reales de coste.

Aplicaciones

Llama 3 8B corriendo en MacBooks (via Ollama)Modelos médicos especializados en hospitalesAsistentes personalizados que aprenden de tiIA en dispositivos edge (IoT, drones)
🔍

Explicabilidad e interpretabilidad

Esfuerzos por entender cómo toman decisiones los modelos y hacerlos más transparentes, especialmente crítico en aplicaciones reguladas.

💡 Cómo funciona

Técnicas que intentan "abrir la caja negra": visualizar qué partes del input influyen en la respuesta, identificar circuitos neuronales específicos que detectan conceptos, o enseñar al modelo a explicar su propio razonamiento.

Attention visualization

Muestra qué partes del texto el modelo está "mirando"

Ejemplo: Colorear palabras según su importancia para la predicción

Mechanistic interpretability

Encuentra circuitos neuronales que detectan conceptos específicos

Ejemplo: Anthropic encontró neuronas en Claude que detectan "código malicioso"

Chain-of-thought como explicación

El modelo explica su razonamiento antes de responder

Ejemplo: "Veo que mencionas X, esto implica Y, por lo tanto Z"

🚧 Desafíos actuales

Modelos demasiado complejos para entender completamenteExplicaciones post-hoc pueden ser incorrectasTrade-off entre capacidad y explicabilidad
🔮 Hacia dónde vamos

Modelos y herramientas que permitan justificar mejor decisiones y auditar errores en ámbitos regulados.

Aplicaciones

Auditoría de sesgos en contrataciónExplicación de diagnósticos médicos automáticosCompliance regulatorio (GDPR, AI Act)Depuración de modelos en producción

Aplicaciones en expansión

🤖

Agentes de software

Sistemas como Devin que automatizan partes amplias del desarrollo, desde la exploración hasta la ejecución de tareas concretas.

🎨

Generatividad multimodal

Creación de videos (Sora), modelos 3D y mundos virtuales a partir de simples descripciones de texto.

🔬

Descubrimiento científico

IA que razona sobre literatura médica para proponer nuevas hipótesis y acelerar investigación.

📱

IA en el dispositivo

Modelos potentes que corren en tu móvil sin enviar datos a la nube, preservando privacidad.

🛡️

Defensa contra ataques

Sistemas que detectan intentos de manipulación (jailbreaks, prompt injection) en tiempo real.

🧭

Navegación robótica

Robots que combinan visión y lenguaje para interpretar instrucciones complejas y operar en entornos físicos.

Herramientas y frameworks