Áreas emergentes
Líneas de trabajo que están ampliando qué pueden hacer los sistemas lingüísticos y cómo se evalúan sus límites.
🚀¿Qué son las áreas emergentes?
Las áreas emergentes representan líneas de investigación que hoy están reconfigurando el PLN. Interesan no solo por novedad técnica, sino porque obligan a repensar evaluación, seguridad, contexto y división del trabajo entre sistema y supervisión humana.
Del chatbot al agente
Estamos pasando de modelos que solo responden preguntas a sistemas que pueden planificar, usar herramientas y encadenar pasos. La pregunta importante ya no es solo qué hacen, sino bajo qué condiciones merece la pena confiar en ellos.
Por qué conviene mirarlas de cerca
Estas áreas avanzan deprisa, pero el interés de LinguAI no está en celebrar velocidad, sino en entender qué problema resuelven, qué simplifican y qué errores nuevos introducen.
Fronteras de investigación
Multimodalidad
Integración de texto, imagen, audio y video en representaciones compartidas para relacionar señales distintas dentro de una misma tarea.
💡 Cómo funciona
Los modelos aprenden a representar texto, imágenes y audio en el mismo "lenguaje interno" (espacio vectorial compartido). Así pueden relacionar una foto de un gato con la palabra "gato" y el sonido "miau".
Modelos vision-language
Entienden imágenes y texto simultáneamente
Ejemplo: GPT-4 Vision, Gemini, Claude 3 - puedes subir una foto y preguntarle qué es
Text-to-image
Generan imágenes realistas desde descripciones
Ejemplo: DALL-E, Midjourney, Stable Diffusion - "un gato astronauta pintado por Van Gogh"
Video understanding
Analizan y describen videos completos
Ejemplo: Video-LLaMA, Gemini 1.5 - "resume este video de 2 horas"
🚧 Desafíos actuales
🔮 Hacia dónde vamos
Hacia sistemas que relacionen mejor texto, imagen, audio y video sin tratar cada modalidad como una isla.
Aplicaciones
Razonamiento y resolución de problemas
Técnicas que permiten a los modelos resolver problemas complejos paso a paso, como lo haría un humano pensando en voz alta.
💡 Cómo funciona
En lugar de dar una respuesta directa, el modelo "piensa" explícitamente: descompone el problema, explora soluciones, verifica resultados. Chain-of-Thought hace que el modelo escriba su razonamiento antes de responder.
Chain-of-Thought (CoT)
El modelo muestra su razonamiento paso a paso
Ejemplo: "Pensemos paso a paso: primero..., luego..., por lo tanto..." - mejora precisión en matemáticas
Tree-of-Thoughts
Explora múltiples caminos de razonamiento en paralelo
Ejemplo: Como jugar ajedrez: evalúa varias estrategias antes de elegir la mejor
Tool use
Usa calculadoras, APIs o código para verificar respuestas
Ejemplo: Claude puede escribir y ejecutar código Python para hacer cálculos complejos
🚧 Desafíos actuales
🔮 Hacia dónde vamos
Modelos más útiles para descomponer problemas, contrastar pasos y apoyarse en herramientas externas con menos errores acumulados.
Aplicaciones
Agentes con ejecución automatizada
Sistemas que pueden planificar, usar herramientas, navegar interfaces y completar tareas complejas con distintos grados de automatización.
💡 Cómo funciona
Un agente recibe un objetivo ("reserva vuelos a París"), planifica los pasos necesarios, ejecuta acciones (buscar vuelos, comparar precios, rellenar formularios), observa resultados y ajusta el plan. Puede usar APIs, navegar webs o escribir código.
Uso de herramientas
Llaman APIs, ejecutan código, buscan en internet
Ejemplo: LangChain permite que GPT busque en Google, lea PDFs o consulte bases de datos
Navegación web
Controlan navegadores como un humano
Ejemplo: GPT-4 + Selenium puede comprar productos online siguiendo instrucciones
Multi-agente
Varios agentes especializados colaboran
Ejemplo: CrewAI: un "investigador" busca info, un "escritor" redacta, un "editor" revisa
🚧 Desafíos actuales
🔮 Hacia dónde vamos
Sistemas capaces de automatizar flujos más largos, aunque todavía con necesidad de supervisión, límites de seguridad y validación.
Aplicaciones
Alineación y seguridad
Asegurar que los modelos se comporten según las intenciones humanas y eviten generar contenido dañino, sesgado o peligroso.
💡 Cómo funciona
Después de entrenar el modelo base, se usa Reinforcement Learning from Human Feedback (RLHF): humanos califican respuestas, el modelo aprende a maximizar la satisfacción humana. También hay técnicas de "red teaming" donde se intenta hackear el modelo para encontrar debilidades.
RLHF
Entrenamiento con feedback humano sobre qué respuestas son mejores
Ejemplo: ChatGPT aprende a ser útil, honesto y inofensivo gracias a evaluadores humanos
Constitutional AI
El modelo se auto-critica y corrige según principios éticos
Ejemplo: Claude de Anthropic usa una "constitución" de valores para guiarse sin supervisión constante
Red teaming
Expertos intentan romper el modelo para encontrar fallos
Ejemplo: OpenAI paga a hackers para que intenten hacer que GPT genere contenido prohibido
🚧 Desafíos actuales
🔮 Hacia dónde vamos
Sistemas mejor ajustados a criterios de seguridad, transparencia y límites declarados, incluso fuera de escenarios controlados.
Aplicaciones
Eficiencia y personalización
Hacer los modelos más pequeños, rápidos y adaptables, permitiendo ejecutarlos localmente o personalizarlos con bajo costo.
💡 Cómo funciona
Técnicas como LoRA (Low-Rank Adaptation) permiten ajustar modelos entrenando solo una pequeña fracción de parámetros. Cuantización reduce la precisión numérica (de 32 bits a 4 bits) sin perder mucha calidad. Destilación transfiere conocimiento de modelos grandes a pequeños.
LoRA y QLoRA
Fine-tuning eficiente entrenando solo adaptadores pequeños
Ejemplo: Personalizar Llama 3 con tus datos en una GPU normal en horas en vez de días
Cuantización
Reduce tamaño del modelo usando menos bits por parámetro
Ejemplo: Llama 2-70B cuantizado a 4-bit cabe en 35GB en vez de 140GB
Destilación
Modelos pequeños aprenden de modelos grandes
Ejemplo: DistilBERT es 60% más pequeño que BERT pero mantiene 97% de capacidad
🚧 Desafíos actuales
🔮 Hacia dónde vamos
Modelos más pequeños y adaptables para contextos locales, dominios específicos y restricciones reales de coste.
Aplicaciones
Explicabilidad e interpretabilidad
Esfuerzos por entender cómo toman decisiones los modelos y hacerlos más transparentes, especialmente crítico en aplicaciones reguladas.
💡 Cómo funciona
Técnicas que intentan "abrir la caja negra": visualizar qué partes del input influyen en la respuesta, identificar circuitos neuronales específicos que detectan conceptos, o enseñar al modelo a explicar su propio razonamiento.
Attention visualization
Muestra qué partes del texto el modelo está "mirando"
Ejemplo: Colorear palabras según su importancia para la predicción
Mechanistic interpretability
Encuentra circuitos neuronales que detectan conceptos específicos
Ejemplo: Anthropic encontró neuronas en Claude que detectan "código malicioso"
Chain-of-thought como explicación
El modelo explica su razonamiento antes de responder
Ejemplo: "Veo que mencionas X, esto implica Y, por lo tanto Z"
🚧 Desafíos actuales
🔮 Hacia dónde vamos
Modelos y herramientas que permitan justificar mejor decisiones y auditar errores en ámbitos regulados.
Aplicaciones
Aplicaciones en expansión
Agentes de software
Sistemas como Devin que automatizan partes amplias del desarrollo, desde la exploración hasta la ejecución de tareas concretas.
Generatividad multimodal
Creación de videos (Sora), modelos 3D y mundos virtuales a partir de simples descripciones de texto.
Descubrimiento científico
IA que razona sobre literatura médica para proponer nuevas hipótesis y acelerar investigación.
IA en el dispositivo
Modelos potentes que corren en tu móvil sin enviar datos a la nube, preservando privacidad.
Defensa contra ataques
Sistemas que detectan intentos de manipulación (jailbreaks, prompt injection) en tiempo real.
Navegación robótica
Robots que combinan visión y lenguaje para interpretar instrucciones complejas y operar en entornos físicos.
Herramientas y frameworks
LangChain
Framework para construir agentes y aplicaciones con LLMs, con herramientas para memoria, búsqueda y ejecución.
CrewAI
Plataforma para orquestar equipos de agentes especializados que colaboran en tareas complejas.
PEFT (Hugging Face)
Librería para fine-tuning eficiente usando LoRA, adaptadores y otras técnicas de bajo costo.
Ollama
Herramienta para ejecutar modelos potentes (Llama, Mistral) de forma local en tu ordenador de forma fácil.
vLLM
Biblioteca de alto rendimiento para servir modelos LLM con latencia ultra-baja y alto throughput.