Tareas de PLN

Pregunta-respuesta (QA)

¿Cómo hacer que las máquinas respondan preguntas sobre documentos, datos y conocimiento? Desde búsquedas precisas hasta diálogos fluidos.

❓¿En qué consiste el Question Answering?

El Question Answering (QA) es una tarea donde un sistema responde preguntas formuladas en lenguaje natural basándose en una fuente de información (texto, base de conocimiento o su memoria interna).

Del texto al conocimiento

QA es más que búsqueda: requiere comprensión lingüística, razonamiento y a veces síntesis de información de múltiples fuentes.

El boom de RAG

Con los LLMs, RAG se ha convertido en el estándar para sistemas de QA empresariales, combinando recuperación de documentos con generación de lenguaje.

Paradigmas de Question Answering

📌

QA extractivo

Localiza respuestas copiando fragmentos exactos del documento original. Como subrayar la parte del texto que contiene la respuesta.

Cómo funciona

El modelo lee el documento y la pregunta, luego identifica dónde empieza y dónde termina la respuesta dentro del texto. Es como un resaltador inteligente.

Ejemplo

Texto: "La Torre Eiffel fue diseñada por Gustave Eiffel"
Pregunta: ¿Quién diseñó la Torre Eiffel?
Respuesta: Gustave Eiffel (copiado del texto)

✓ Ventajas

• La respuesta siempre viene del texto original
• No inventa información
• Puedes verificar de dónde salió

✗ Limitaciones

• Solo funciona si la respuesta está literal
• No puede combinar info de varias partes
• Sensible a cómo preguntas

Aplicaciones

Búsqueda en contratos y documentos legalesFAQ sobre productosManuales técnicos

✨

QA generativo

Genera respuestas nuevas combinando información. Como explicarle algo a alguien con tus propias palabras.

Cómo funciona

El modelo lee el contexto y usa su conocimiento para crear una respuesta desde cero, reformulando y sintetizando la información.

Ejemplo

Pregunta: ¿Cuáles son las diferencias entre Python y JavaScript?
Respuesta: Python es ideal para ciencia de datos y usa indentación, mientras que JavaScript domina el web y usa llaves.

✓ Ventajas

• Respuestas más fluidas y naturales
• Puede unir información de varias partes
• Entiende distintas formas de preguntar

✗ Limitaciones

• Puede inventar datos falsos ("alucinar")
• Más difícil verificar la fuente
• Necesita más poder de cómputo

Aplicaciones

ChatGPT y asistentes conversacionalesTutores educativos personalizadosSoporte al cliente

💬

QA conversacional

Mantiene contexto en diálogos multi-turno, resolviendo referencias anafóricas y preguntas de seguimiento.

Cómo funciona

El modelo mantiene un historial de la conversación y resuelve referencias como "él", "eso", "ahí".

Ejemplo

Usuario: ¿Cuándo se fundó Google?
Asistente: En 1998
Usuario: ¿Quiénes lo fundaron?
Asistente: Larry Page y Sergey Brin (resuelve "lo" → Google)

✓ Ventajas

• Interacción natural
• Preguntas de seguimiento
• Clarificaciones

✗ Limitaciones

• Acumulación de errores
• Contexto limitado
• Resolución de correferencia difícil

Aplicaciones

Chatbots de atenciónAsistentes personalesTutores interactivosSoporte técnico

🔍

RAG (retrieval-augmented)

Combina recuperación de documentos con generación, fundamentando respuestas en fuentes verificables.

Cómo funciona

Primero recupera documentos relevantes de una base de conocimiento, luego genera respuestas basándose en ellos.

Pipeline típico

Consulta→

Embedding→

Base de vectores→

Docs relevantes→

LLM + Contexto→

Respuesta

✓ Ventajas

• Fundamentado en fuentes
• Actualizable sin reentrenar
• Reduce alucinaciones

✗ Limitaciones

• Depende de la calidad del retrieval
• Latencia adicional
• Complejidad del pipeline

Aplicaciones

Búsqueda empresarialBases de conocimientoChatbots con documentosInvestigación

Aplicaciones en el mundo real

💼

Búsqueda empresarial

Pregunta sobre la documentación interna de tu compañía de forma natural.

👩‍🏫

Tutoría personalizada

Sistemas que responden dudas de estudiantes basándose en libros específicos.

🛠️

Soporte técnico inteligente

Resolución de incidencias consultando manuales y guías de usuario.

⚖️

Análisis legal

Localización de cláusulas y respuestas en contratos y legislación extensa.

🩺

Apoyo médico

Consulta de protocolos y literatura científica por parte de profesionales.

🛒

Asistentes de compra

Ayuda a clientes a encontrar productos según sus necesidades específicas.

Desafíos y futuro

Desafíos actuales

• Preguntas complejas: Requieren razonamiento multi-salto
• Alucinaciones: En modelos generativos, respuestas plausibles pero falsas
• Escalabilidad: Búsqueda eficiente en millones de documentos
• Multilingüismo: Funcionar bien en lenguas con menos recursos
• Evaluación: Métricas que capturen calidad de las respuestas

Fronteras de investigación

• QA multimodal: Responder sobre imágenes, tablas y gráficos
• Fact-checking automático: Verificar la veracidad de respuestas
• Razonamiento estructurado: Cadenas de pensamiento explícitas
• Personalización: Respuestas adaptadas al nivel del usuario
• Explicabilidad: Transparencia en el origen de las respuestas

←

Clasificación de Textos

Traducción Automática

→

Pregunta-respuesta (QA)

❓¿En qué consiste el Question Answering?

Del texto al conocimiento

El boom de RAG

Paradigmas de Question Answering

QA extractivo

Cómo funciona

Ejemplo

✓ Ventajas

✗ Limitaciones

Aplicaciones

QA generativo

Cómo funciona

Ejemplo

✓ Ventajas

✗ Limitaciones

Aplicaciones

QA conversacional

Cómo funciona

Ejemplo

✓ Ventajas

✗ Limitaciones

Aplicaciones

RAG (retrieval-augmented)

Cómo funciona

Pipeline típico

✓ Ventajas

✗ Limitaciones

Aplicaciones

Aplicaciones en el mundo real

Búsqueda empresarial

Tutoría personalizada

Soporte técnico inteligente

Análisis legal

Apoyo médico

Asistentes de compra

Herramientas clave

LangChain

LlamaIndex

Haystack

Pinecone

Chroma

Desafíos y futuro

Desafíos actuales

Fronteras de investigación