Saltar al contenido
Tareas de PLN

Tecnologías del habla

La tecnología que permite procesar voz, convertirla en texto, generar audio y trabajar con señales habladas de forma útil.

🎙️¿ Qué son las tecnologías del habla?

Las tecnologías del habla (Speech Technologies) son el conjunto de técnicas que permiten a los sistemas procesar, transcribir, sintetizar y comparar lenguaje hablado. Son el puente entre cómo nos comunicamos los humanos por voz y cómo un sistema convierte esa señal en texto, decisiones o audio generado.

¿Por qué importa?

La voz concentra acento, ritmo, entonación, hesitación y contexto situacional. Trabajar con ella obliga a formalizar fenómenos lingüísticos y acústicos que no aparecen igual en el texto escrito.

Un punto de inflexión reciente

Herramientas recientes como Whisper han rebajado mucho la barrera técnica para transcribir audio multilingüe, pero siguen exigiendo revisar ruido, acentos, solapamientos y errores de segmentación.

Áreas principales

🎙️

Reconocimiento de voz (Speech-to-Text)

Convierte ondas sonoras en texto escrito. Es lo que permite dictar mensajes, transcribir reuniones o dar comandos de voz a tu teléfono.

💡 Cómo funciona

El audio se divide en fragmentos pequeños. Cada fragmento se analiza para identificar fonemas (sonidos básicos), luego se combinan en palabras usando modelos de lenguaje que predicen qué palabra es más probable dado el contexto.

Modelos tradicionales (HMM)

Usan Hidden Markov Models y GMM (Gaussian Mixture Models)

Ejemplo: Sistemas antiguos como Dragon NaturallySpeaking

Deep Learning (RNN/LSTM)

Redes neuronales recurrentes que capturan secuencias temporales

Ejemplo: DeepSpeech de Mozilla

Transformers

Modelos modernos basados en atención, multilingües y muy precisos

Ejemplo: Whisper de OpenAI - transcribe y alinea voz en 99 idiomas

🚧 Desafíos técnicos

Ruido de fondoAcentos y dialectosPalabras poco comunesHablantes solapados

Aplicaciones comunes

Subtitulado automático (YouTube)Asistentes de voz (Siri, Alexa)Dictado (Google Docs)Transcripción de reuniones (Otter.ai)
🗣️

Síntesis de voz (Text-to-Speech)

Genera habla artificial que suena natural a partir de texto escrito. La voz de Google Maps o de los audiolibros.

💡 Cómo funciona

El texto se convierte en representaciones acústicas (como espectrogramas mel) que capturan cómo debería sonar cada fonema. Luego un vocoder transforma esas representaciones en ondas de audio que puedes escuchar.

Concatenativo

Graba una persona diciendo todas las combinaciones posibles y las pega

Ejemplo: GPS antiguos con voz robótica

Paramétrico (vocoder)

Genera audio usando modelos matemáticos de la voz humana

Ejemplo: Voz de Stephen Hawking

Neural TTS

Redes neuronales que aprenden a imitar voces humanas de forma hiperrealista

Ejemplo: Tacotron 2, FastSpeech, VITS

Clonación de voz

Crea una voz sintética que suena exactamente como una persona específica

Ejemplo: ElevenLabs - con 5 minutos de audio puede clonar tu voz

🚧 Desafíos técnicos

Entonación y emoción naturalProsodia (ritmo y melodía)Respeto de puntuaciónVoces multilingües

Aplicaciones comunes

Audiolibros (Speechelo)Asistentes virtualesNavegación GPSAccesibilidad (lectores de pantalla)Doblaje automático
🔐

Biometría vocal

Identifica o verifica la identidad de una persona analizando características únicas de su voz. Como una huella dactilar, pero de voz.

💡 Cómo funciona

Extrae características acústicas únicas de cada voz (tono, timbre, cadencia) y las compara con un perfil almacenado. Usa técnicas como i-vectors o x-vectors para crear "huellas vocales".

Verificación

Confirma que eres quien dices ser (1:1)

Ejemplo: "Di tu contraseña de voz para desbloquear"

Identificación

Determina quién eres entre muchas personas (1:N)

Ejemplo: Sistema que reconoce qué miembro de la familia está hablando

Detección de liveness

Detecta si es una voz real o una grabación/deepfake

Ejemplo: Prevención de fraude en banca telefónica

🚧 Desafíos técnicos

Variabilidad por resfriados/emocionesEnvejecimiento de la vozDeepfakes de vozRuido ambiental

Aplicaciones comunes

Autenticación bancaria por teléfonoControl de acceso por vozForense (identificar criminales)Personalización de asistentes
🌍

Traducción de voz en tiempo real

Traduce voz a otro idioma intentando conservar información prosódica, ritmo y parte del estilo de habla.

💡 Cómo funciona

Pipeline de 3 pasos: 1) STT transcribe tu voz 2) Traducción automática traduce el texto 3) TTS genera la voz traducida. Las versiones avanzadas pueden transferir tu estilo de habla.

Cascada (pipeline clásico)

Tres sistemas separados (STT → MT → TTS)

Ejemplo: Google Translate modo voz

End-to-end

Un solo modelo neuronal que aprende todo el proceso junto

Ejemplo: Translatotron de Google

Voice cloning multilingüe

Traduce manteniendo tu timbre de voz original

Ejemplo: Meta's SeamlessM4T

🚧 Desafíos técnicos

Latencia (tiene que ser rápido)Preservar emociones y entonaciónDialectos y jergasContexto cultural

Aplicaciones comunes

Reuniones internacionalesTurismo (apps de viaje)Atención médica multilingüeVideollamadas traducidas en vivo

¿Para qué se usa?

🤖

Asistentes virtuales

Siri, Alexa, Google Assistant: conversa con tus dispositivos de forma natural.

✍️

Transcripción automática

Convierte reuniones, podcasts y videos en texto buscable (Otter.ai, Rev).

Accesibilidad

Lectores de pantalla para ciegos, subtítulos en vivo para sordos.

📞

Call centers inteligentes

Sistemas que clasifican, enrutan y responden llamadas telefónicas con distintos grados de automatización.

🎮

Entretenimiento

Doblaje automático de películas, creación de audiolibros, personajes de videojuegos.

🏥

Salud

Dictado médico, asistentes para terapia del habla, monitoreo de Parkinson por voz.

Herramientas principales