Saltar al contenido
Tareas de PLN

Tecnologías del habla

La tecnología que permite a las máquinas escucharnos, hablarnos y reconocernos a través de la voz.

🎙️¿ Qué son las tecnologías del habla?

Las tecnologías del habla (Speech Technologies) son el conjunto de técnicas que permiten a las máquinas procesar, entender y generar lenguaje hablado. Es el puente entre cómo nos comunicamos los humanos (hablando) y cómo procesan información las computadoras (texto y datos).

¿Por qué importa?

La voz es la forma más natural de comunicación humana. Las tecnologías del habla hacen que la interacción con máquinas sea tan fácil como hablar con otra persona.

El boom de Whisper

El modelo Whisper de OpenAI democratizó la transcripción de voz de calidad profesional, alcanzando precisión humana en 99 idiomas.

Áreas principales

🎙️

Reconocimiento de voz (Speech-to-Text)

Convierte ondas sonoras en texto escrito. Es lo que permite dictar mensajes, transcribir reuniones o dar comandos de voz a tu teléfono.

💡 Cómo funciona

El audio se divide en fragmentos pequeños. Cada fragmento se analiza para identificar fonemas (sonidos básicos), luego se combinan en palabras usando modelos de lenguaje que predicen qué palabra es más probable dado el contexto.

Modelos tradicionales (HMM)

Usan Hidden Markov Models y GMM (Gaussian Mixture Models)

Ejemplo: Sistemas antiguos como Dragon NaturallySpeaking

Deep Learning (RNN/LSTM)

Redes neuronales recurrentes que capturan secuencias temporales

Ejemplo: DeepSpeech de Mozilla

Transformers

Modelos modernos basados en atención, multilingües y muy precisos

Ejemplo: Whisper de OpenAI - entiende 99 idiomas

🚧 Desafíos técnicos

Ruido de fondoAcentos y dialectosPalabras poco comunesHablantes solapados

Aplicaciones comunes

Subtitulado automático (YouTube)Asistentes de voz (Siri, Alexa)Dictado (Google Docs)Transcripción de reuniones (Otter.ai)
🗣️

Síntesis de voz (Text-to-Speech)

Genera habla artificial que suena natural a partir de texto escrito. La voz de Google Maps o de los audiolibros.

💡 Cómo funciona

El texto se convierte en representaciones acústicas (como espectrogramas mel) que capturan cómo debería sonar cada fonema. Luego un vocoder transforma esas representaciones en ondas de audio que puedes escuchar.

Concatenativo

Graba una persona diciendo todas las combinaciones posibles y las pega

Ejemplo: GPS antiguos con voz robótica

Paramétrico (vocoder)

Genera audio usando modelos matemáticos de la voz humana

Ejemplo: Voz de Stephen Hawking

Neural TTS

Redes neuronales que aprenden a imitar voces humanas de forma hiperrealista

Ejemplo: Tacotron 2, FastSpeech, VITS

Clonación de voz

Crea una voz sintética que suena exactamente como una persona específica

Ejemplo: ElevenLabs - con 5 minutos de audio puede clonar tu voz

🚧 Desafíos técnicos

Entonación y emoción naturalProsodia (ritmo y melodía)Respeto de puntuaciónVoces multilingües

Aplicaciones comunes

Audiolibros (Speechelo)Asistentes virtualesNavegación GPSAccesibilidad (lectores de pantalla)Doblaje automático
🔐

Biometría vocal

Identifica o verifica la identidad de una persona analizando características únicas de su voz. Como una huella dactilar, pero de voz.

💡 Cómo funciona

Extrae características acústicas únicas de cada voz (tono, timbre, cadencia) y las compara con un perfil almacenado. Usa técnicas como i-vectors o x-vectors para crear "huellas vocales".

Verificación

Confirma que eres quien dices ser (1:1)

Ejemplo: "Di tu contraseña de voz para desbloquear"

Identificación

Determina quién eres entre muchas personas (1:N)

Ejemplo: Sistema que reconoce qué miembro de la familia está hablando

Detección de liveness

Detecta si es una voz real o una grabación/deepfake

Ejemplo: Prevención de fraude en banca telefónica

🚧 Desafíos técnicos

Variabilidad por resfriados/emocionesEnvejecimiento de la vozDeepfakes de vozRuido ambiental

Aplicaciones comunes

Autenticación bancaria por teléfonoControl de acceso por vozForense (identificar criminales)Personalización de asistentes
🌍

Traducción de voz en tiempo real

Traduce lo que dices a otro idioma manteniendo tu estilo y entonación. El futuro del Traductor Universal de Star Trek.

💡 Cómo funciona

Pipeline de 3 pasos: 1) STT transcribe tu voz 2) Traducción automática traduce el texto 3) TTS genera la voz traducida. Las versiones avanzadas pueden transferir tu estilo de habla.

Cascada (pipeline clásico)

Tres sistemas separados (STT → MT → TTS)

Ejemplo: Google Translate modo voz

End-to-end

Un solo modelo neuronal que aprende todo el proceso junto

Ejemplo: Translatotron de Google

Voice cloning multilingüe

Traduce manteniendo tu timbre de voz original

Ejemplo: Meta's SeamlessM4T

🚧 Desafíos técnicos

Latencia (tiene que ser rápido)Preservar emociones y entonaciónDialectos y jergasContexto cultural

Aplicaciones comunes

Reuniones internacionalesTurismo (apps de viaje)Atención médica multilingüeVideollamadas traducidas en vivo

¿Para qué se usa?

🤖

Asistentes virtuales

Siri, Alexa, Google Assistant: conversa con tus dispositivos de forma natural.

✍️

Transcripción automática

Convierte reuniones, podcasts y videos en texto buscable (Otter.ai, Rev).

Accesibilidad

Lectores de pantalla para ciegos, subtítulos en vivo para sordos.

📞

Call centers inteligentes

Bots que entienden y responden llamadas telefónicas de forma autónoma.

🎮

Entretenimiento

Doblaje automático de películas, creación de audiolibros, personajes de videojuegos.

🏥

Salud

Dictado médico, asistentes para terapia del habla, monitoreo de Parkinson por voz.

Herramientas principales