Competencias específicas

Diseño y desarrollo de corpus anotados

La creación y anotación de corpus anotados de referencia ha sido una de las tareas más importantes de los lingüistas computacionales. Existen diversos cursos de especialización que enseñan metodologías y procesos de anotación, así como para su revisión, y las principales herramientas de anotación.

Un corpus lingüístico se define por ser una colección de textos lingüísticos en formato electrónico para representar una lengua o variedad lingüística para el estudio o investigación a realizar.1 Es decir, este debe ser creado para lograr el objetivo que se persigue. La anotación lingüística de esos datos consiste en realizar marcas o anotaciones sobre los textos que describan, analicen o relacionen aspectos concretos.

Uso de herramientas, pipelines y aplicaciones PLN

El uso de estas herramientas permite procesar y enriquecer un texto con distintas capas de tratamiento y análisis (tokenización, lematización, morfología básica, sintaxis y semántica).

En sí, son herramientas y conocimientos base y, por tanto, necesarios para un gran número de tareas, como el análisis de sentimiento, detectar los temas de los textos, realizar resúmenes automáticos, clasificación de documentos… Para ello se necesita un gran conocimiento lingüístico y de programación, mayormente Python.

Elaboración de otros recursos basados en metadatos

La creación de otros recursos como diccionarios, glosarios, taxonomías, ontologías, etc. Estos recursos se pueden utilizar como procesos intermedios para generar otros recursos más complejos como bases de datos o para crear motores de análisis basados en léxico y sus relaciones.

Estas tareas requieren un gran conocimiento en lenguajes de etiquetado, estándares de notación y, en sí, conocimientos del uso de metadatos.

Uso de modelos de machine learning o deep learning (LLM)

Debido al desarrollo de la IA, la mayoría de los corpus están destinados al entrenamiento de modelos de aprendizaje automático. Por tanto, una tarea necesaria y muy buscada es conocer los distintos tipos y saber cómo entrenarlos, refinarlos y usarlos.

Para ello no solo es necesario tener conocimientos de su propio funcionamiento y desempeño, sino también de saber cómo crear y anotar los corpus debidamente.

Métricas de análisis y QA

Al tratar datos -en nuestro caso lingüísticos- y herramientas digitales es necesario el uso y manejo de las principales métricas, con el fin de encontrar fallos, mejoras o, sin más, conocer la información para obtener conclusiones. Estas pueden variar según la tarea, pero un ejemplo puede ser la métrica de evaluación de éxito de un modelo de lenguaje como el F1-Score.

Otras tareas pueden ser propiamente las de QA, es decir, asegurarse de la calidad de nuestros proyectos. Estas tareas pueden desarrollarse de muchas tipologías, desde los propios análisis de datos a «pruebas frías» de uso.

A esto se le puede añadir el uso de herramientas de visualización de datos para un mejor análisis, que propone en sí mismo un mismo mundo.

Diseño, configuración y testing de asistentes conversacionales

La creación de los chatbots es uno de los perfiles más comunes para los LC. No son el único perfil que participan en estos proyectos, pues estos suelen ser multidisciplinares. Una de las primeras tareas es la elección del motor cognitivo del chatbot (Dialogflow, Rasa, Watson, etc.).Los chatbots necesitan de un proceso de diseño de modelo de conocimiento para considerar qué, cuánto y cómo entenderá y generará el lenguaje y la información que proporciona.

También es necesario el entrenamiento para la detección de entidades e intenciones, por lo que la sensibilidad de un lingüista ayuda en gran modo.

Por último, también puede realizar tareas de testing y QA, al saber simular conversaciones para perfeccionar el chatbot.

Procesos de  TTS-STT

La conversión de texto a voz y viceversa es uno de las necesidades más comunes, que van desde la simple conversión para el análisis, generación y captura del lenguaje hasta el etiquetado fonológico para la lectura. Por ejemplo, esto es muy necesario para la creación de chatbots.

Una tarea muy común es la mejora en la síntesis de voz en busca de una mayor naturalidad, para la que es necesario conocimientos en fonética y fonología, así como de herramientas para su procesamientos.

IA generativa y Prompting

Debido al desarrollo de la IA, se han creado nuevas tareas que intenta optimizar al máximo sus beneficios. Las IA generativa (IAgen) indexa documentos a partir de LLM para generas respuestas, como puede ser ChatGPT.

Para lograr el máximo partido de esto es necesario desarrollar tareas de prompting, quiero decir , saber qué y cómo solicitar la información para obtener las respuesta requerida. Para ello se pueden utilizar técnicas como introducir ejemplos, rol, señalar formatos de salida, etc.

  1. ↩︎