Tareas de PLN

Áreas emergentes

Las fronteras de la IA del lenguaje: hacia sistemas que razonan, actúan y colaboran de formas cada vez más autónomas.

🚀¿Qué son las áreas emergentes?

Las áreas emergentes representan la frontera actual de la investigación en PLN y GenAI. Son técnicas y capacidades que están evolucionando rápidamente y que definen hacia dónde se dirige el campo en los próximos años: sistemas más autónomos, seguros, eficientes y capaces de razonar.

Del chatbot al agente

Estamos pasando de modelos que solo responden preguntas a sistemas que pueden planificar, usar herramientas y completar tareas complejas de forma autónoma.

El futuro es ahora

Tecnologías que eran ciencia ficción hace 2 años (GPT-4 Vision, agentes de código, modelos locales potentes) son realidad hoy. El ritmo de innovación es vertiginoso.

Fronteras de investigación

🎨

Multimodalidad

Integración de diferentes tipos de datos (texto, imagen, audio, video) en un espacio semántico compartido donde todo se entiende junto.

💡 Cómo funciona

Los modelos aprenden a representar texto, imágenes y audio en el mismo "lenguaje interno" (espacio vectorial compartido). Así pueden relacionar una foto de un gato con la palabra "gato" y el sonido "miau".

Modelos vision-language

Entienden imágenes y texto simultáneamente

Ejemplo: GPT-4 Vision, Gemini, Claude 3 - puedes subir una foto y preguntarle qué es

Text-to-image

Generan imágenes realistas desde descripciones

Ejemplo: DALL-E, Midjourney, Stable Diffusion - "un gato astronauta pintado por Van Gogh"

Video understanding

Analizan y describen videos completos

Ejemplo: Video-LLaMA, Gemini 1.5 - "resume este video de 2 horas"

🚧 Desafíos actuales

Alinear diferentes modalidadesRazonamiento entre imágenes y textoGeneración coherente de videos largos

🔮 Hacia dónde vamos

Hacia modelos que entiendan el mundo en todas sus formas: ver, escuchar, leer y generar contenido en cualquier formato.

Aplicaciones

Búsqueda visual ("encuentra productos similares a esta foto")Accesibilidad (describe imágenes para ciegos)Edición creativa automáticaDiagnóstico médico con imágenes

🧩

Razonamiento y resolución de problemas

Técnicas que permiten a los modelos resolver problemas complejos paso a paso, como lo haría un humano pensando en voz alta.

💡 Cómo funciona

En lugar de dar una respuesta directa, el modelo "piensa" explícitamente: descompone el problema, explora soluciones, verifica resultados. Chain-of-Thought hace que el modelo escriba su razonamiento antes de responder.

Chain-of-Thought (CoT)

El modelo muestra su razonamiento paso a paso

Ejemplo: "Pensemos paso a paso: primero..., luego..., por lo tanto..." - mejora precisión en matemáticas

Tree-of-Thoughts

Explora múltiples caminos de razonamiento en paralelo

Ejemplo: Como jugar ajedrez: evalúa varias estrategias antes de elegir la mejor

Tool use

Usa calculadoras, APIs o código para verificar respuestas

Ejemplo: Claude puede escribir y ejecutar código Python para hacer cálculos complejos

🚧 Desafíos actuales

Errores se acumulan en cadenas largasRazonamiento sobre conocimiento no vistoVerificación automática de respuestas

🔮 Hacia dónde vamos

Modelos que pueden resolver problemas como AlphaProof (matemáticas olímpicas) o planificar estrategias empresariales complejas.

Aplicaciones

ChatGPT resolviendo problemas de físicaClaude Sonnet programando aplicaciones completasGPT-4 analizando casos legales complejosPlanificación estratégica en negocios

🤖

Agentes autónomos

Sistemas que pueden planificar, usar herramientas, navegar interfaces y completar tareas complejas de forma autónoma, iterando hasta lograr el objetivo.

💡 Cómo funciona

Un agente recibe un objetivo ("reserva vuelos a París"), planifica los pasos necesarios, ejecuta acciones (buscar vuelos, comparar precios, rellenar formularios), observa resultados y ajusta el plan. Puede usar APIs, navegar webs o escribir código.

Uso de herramientas

Llaman APIs, ejecutan código, buscan en internet

Ejemplo: LangChain permite que GPT busque en Google, lea PDFs o consulte bases de datos

Navegación web

Controlan navegadores como un humano

Ejemplo: GPT-4 + Selenium puede comprar productos online siguiendo instrucciones

Multi-agente

Varios agentes especializados colaboran

Ejemplo: CrewAI: un "investigador" busca info, un "escritor" redacta, un "editor" revisa

🚧 Desafíos actuales

Errores en ejecución (sitios cambian, APIs fallan)Bucles infinitosSeguridad (¿qué pueden hacer?)

🔮 Hacia dónde vamos

Asistentes que gestionan tu email, reservan viajes, hacen trámites burocráticos... todo autónomamente mientras duermes.

Aplicaciones

Devin (agente que programa software completo)AutoGPT (planifica y ejecuta tareas complejas)Agentes de atención al cliente end-to-endResearch assistants que leen papers y escriben informes

🛡️

Alineación y seguridad

Asegurar que los modelos se comporten según las intenciones humanas y eviten generar contenido dañino, sesgado o peligroso.

💡 Cómo funciona

Después de entrenar el modelo base, se usa Reinforcement Learning from Human Feedback (RLHF): humanos califican respuestas, el modelo aprende a maximizar la satisfacción humana. También hay técnicas de "red teaming" donde se intenta hackear el modelo para encontrar debilidades.

RLHF

Entrenamiento con feedback humano sobre qué respuestas son mejores

Ejemplo: ChatGPT aprende a ser útil, honesto y inofensivo gracias a evaluadores humanos

Constitutional AI

El modelo se auto-critica y corrige según principios éticos

Ejemplo: Claude de Anthropic usa una "constitución" de valores para guiarse sin supervisión constante

Red teaming

Expertos intentan romper el modelo para encontrar fallos

Ejemplo: OpenAI paga a hackers para que intenten hacer que GPT genere contenido prohibido

🚧 Desafíos actuales

Definir qué es "comportamiento correcto" (varía por cultura)Jailbreaks creativosSesgos heredados de datos de entrenamiento

🔮 Hacia dónde vamos

IA que respete valores humanos incluso en situaciones nunca vistas, y que sea transparente sobre sus limitaciones.

Aplicaciones

Chatbots aptos para menoresSistemas de salud mental segurosModeración automática de contenidoIA en aplicaciones críticas (medicina, finanzas)

⚡

Eficiencia y personalización

Hacer los modelos más pequeños, rápidos y adaptables, permitiendo ejecutarlos localmente o personalizarlos con bajo costo.

💡 Cómo funciona

Técnicas como LoRA (Low-Rank Adaptation) permiten ajustar modelos entrenando solo una pequeña fracción de parámetros. Cuantización reduce la precisión numérica (de 32 bits a 4 bits) sin perder mucha calidad. Destilación transfiere conocimiento de modelos grandes a pequeños.

LoRA y QLoRA

Fine-tuning eficiente entrenando solo adaptadores pequeños

Ejemplo: Personalizar Llama 3 con tus datos en una GPU normal en horas en vez de días

Cuantización

Reduce tamaño del modelo usando menos bits por parámetro

Ejemplo: Llama 2-70B cuantizado a 4-bit cabe en 35GB en vez de 140GB

Destilación

Modelos pequeños aprenden de modelos grandes

Ejemplo: DistilBERT es 60% más pequeño que BERT pero mantiene 97% de capacidad

🚧 Desafíos actuales

Balance calidad vs tamañoFragmentación (muchos modelos especializados)Validación de modelos destilados

🔮 Hacia dónde vamos

IA potente corriendo en tu móvil sin internet, modelos personalizados para cada empresa con costos mínimos.

Aplicaciones

Llama 3 8B corriendo en MacBooks (via Ollama)Modelos médicos especializados en hospitalesAsistentes personalizados que aprenden de tiIA en dispositivos edge (IoT, drones)

🔍

Explicabilidad e interpretabilidad

Esfuerzos por entender cómo toman decisiones los modelos y hacerlos más transparentes, especialmente crítico en aplicaciones reguladas.

💡 Cómo funciona

Técnicas que intentan "abrir la caja negra": visualizar qué partes del input influyen en la respuesta, identificar circuitos neuronales específicos que detectan conceptos, o enseñar al modelo a explicar su propio razonamiento.

Attention visualization

Muestra qué partes del texto el modelo está "mirando"

Ejemplo: Colorear palabras según su importancia para la predicción

Mechanistic interpretability

Encuentra circuitos neuronales que detectan conceptos específicos

Ejemplo: Anthropic encontró neuronas en Claude que detectan "código malicioso"

Chain-of-thought como explicación

El modelo explica su razonamiento antes de responder

Ejemplo: "Veo que mencionas X, esto implica Y, por lo tanto Z"

🚧 Desafíos actuales

Modelos demasiado complejos para entender completamenteExplicaciones post-hoc pueden ser incorrectasTrade-off entre capacidad y explicabilidad

🔮 Hacia dónde vamos

Modelos que pueden justificar cada decisión de forma verificable, crítico para medicina, justicia y finanzas.

Aplicaciones

Auditoría de sesgos en contrataciónExplicación de diagnósticos médicos automáticosCompliance regulatorio (GDPR, AI Act)Depuración de modelos en producción

Aplicaciones del futuro cercano

🤖

Agentes de software

Sistemas como Devin que programan aplicaciones completas de forma autónoma, desde el diseño hasta el deploy.

🎨

Generatividad multimodal

Creación de videos (Sora), modelos 3D y mundos virtuales a partir de simples descripciones de texto.

🔬

Descubrimiento científico

IA que razona sobre literatura médica para proponer nuevas hipótesis y acelerar investigación.

📱

IA en el dispositivo

Modelos potentes que corren en tu móvil sin enviar datos a la nube, preservando privacidad.

🛡️

Defensa contra ataques

Sistemas que detectan intentos de manipulación (jailbreaks, prompt injection) en tiempo real.

🧭

Navegación robótica

Robots que entienden comandos complejos combinando visión y lenguaje para operar en el mundo físico.

Volver

Todas las tareas

Explorar

Recursos de Aprendizaje

→

Áreas emergentes

🚀¿Qué son las áreas emergentes?

Del chatbot al agente

El futuro es ahora

Fronteras de investigación

Multimodalidad

💡 Cómo funciona

Modelos vision-language

Text-to-image

Video understanding

🚧 Desafíos actuales

🔮 Hacia dónde vamos

Aplicaciones

Razonamiento y resolución de problemas

💡 Cómo funciona

Chain-of-Thought (CoT)

Tree-of-Thoughts

Tool use

🚧 Desafíos actuales

🔮 Hacia dónde vamos

Aplicaciones

Agentes autónomos

💡 Cómo funciona

Uso de herramientas

Navegación web

Multi-agente

🚧 Desafíos actuales

🔮 Hacia dónde vamos

Aplicaciones

Alineación y seguridad

💡 Cómo funciona

RLHF

Constitutional AI

Red teaming

🚧 Desafíos actuales

🔮 Hacia dónde vamos

Aplicaciones

Eficiencia y personalización

💡 Cómo funciona

LoRA y QLoRA

Cuantización

Destilación

🚧 Desafíos actuales

🔮 Hacia dónde vamos

Aplicaciones

Explicabilidad e interpretabilidad

💡 Cómo funciona

Attention visualization

Mechanistic interpretability

Chain-of-thought como explicación

🚧 Desafíos actuales

🔮 Hacia dónde vamos

Aplicaciones

Aplicaciones del futuro cercano

Agentes de software

Generatividad multimodal

Descubrimiento científico

IA en el dispositivo

Defensa contra ataques

Navegación robótica

Herramientas y frameworks

LangChain

CrewAI

PEFT (Hugging Face)

Ollama

vLLM