Glosario

Inteligencia Artificial (IA)

  • Inteligencia artificial: campo de estudio que busca crear sistemas capaces de realizar tareas que requieren inteligencia humana, como el razonamiento, la percepción y la toma de decisiones
  • IA generativa: subcampo de la IA centrado en la creación de contenido nuevo (texto, imágenes, música) mediante modelos entrenados en grandes conjuntos de datos

Aprendizaje automático (Machine Learning)

  • Aprendizaje automático: disciplina que permite a los sistemas aprender patrones a partir de datos sin ser programados explícitamente para cada tarea
  • Aprendizaje supervisado: método de entrenamiento donde un modelo aprende a mapear entradas a salidas a partir de datos etiquetados
  • Aprendizaje no supervisado: técnica en la que un modelo identifica estructuras o patrones en datos no etiquetados
  • Aprendizaje por refuerzo: enfoque en el que un agente interactúa con un entorno y aprende a través de recompensas o penalizaciones

Aprendizaje profundo (Deep Learning)

  • Redes neuronales artificiales: modelos inspirados en la estructura del cerebro, compuestos por capas de neuronas que procesan información de forma jerárquica
  • Transformer: arquitectura de deep learning basada en mecanismos de atención múltiple, fundamental en modelos de lenguaje modernos
  • Redes neuronales convolucionales (CNN): tipo de red eficaz para procesar datos con estructura en cuadrícula (imágenes, texto representado como matrices)
  • Redes neuronales recurrentes (RNN): redes diseñadas para datos secuenciales, donde las salidas dependen de estados previos

Procesamiento del Lenguaje Natural (NLP)

  • Tokenización: proceso de dividir el texto en unidades mínimas (tokens) como palabras, subpalabras o símbolos
  • Lematización: reducción de una palabra a su forma canónica o lema mediante reglas lingüísticas
  • Stemming: técnica que recorta palabras a su raíz mediante algoritmos heurísticos
  • Reconocimiento de entidades nombradas (NER): subtarea que identifica y clasifica menciones de entidades (personas, organizaciones, ubicaciones) en texto
  • Análisis de sentimiento: técnica que determina la polaridad (positiva, negativa, neutral) de opiniones expresadas en texto
  • Análisis sintáctico (parsing): proceso de generar la estructura gramatical (árbol sintáctico) de una oración

Métricas y evaluación

  • BLEU: métrica que compara traducciones generadas con referencias humanas calculando n-gramas coincidentes
  • ROUGE: conjunto de métricas que evalúan resúmenes comparando unidades de texto (n-gramas, secuencias) frente a referencias
  • Perplexity: medida de incertidumbre de un modelo al predecir texto; valores bajos indican mejor predicción
  • F1-score: media armónica de precisión y recall, utilizada para evaluar clasificación y extracción de información

Herramientas y librerías

  • spaCy: biblioteca open source en Python para NLP industrial, incluye tokenización, NER, POS‑tagging y word vectors
  • NLTK: colección de herramientas y corpus para NLP académico y didáctico en Python
  • Transformers: biblioteca de Hugging Face con modelos pretrained para NLP, visión y multimodalidad
  • Gensim: librería en Python para modelado de temas y vectores de palabras basados en métodos estadísticos
  • TensorFlow y PyTorch: frameworks de deep learning para construir y entrenar redes neuronales a gran escala

Formatos de datos y corpus

  • JSON: formato ligero de intercambio de datos basado en texto, ampliamente usado en APIs y configuraciones
  • XML: formato de marcado jerárquico para estructurar documentos y metadatos
  • Corpus: colección estructurada de textos utilizada para entrenar y evaluar modelos NLP
  • Dataset: conjunto de datos, etiquetados o sin etiquetar, optimizado para tareas de machine learning

Empresas y plataformas

  • OpenAI: organización de investigación en IA responsable de GPT y ChatGPT, impulsa avances en modelos de lenguaje
  • Hugging Face: plataforma y comunidad de modelos NLP open source, facilita uso de transformers
  • Google Cloud AI: servicios escalables de IA: Vertex AI, Document AI, Speech‑to‑Text, visión por computadora
  • Microsoft Azure Cognitive Services: API y servicios de NLP, visión y voz integrados en Azure para soluciones corporativas
  • IBM Watson: plataforma de IA empresarial capaz de analizar lenguaje natural, extraer insights y responder preguntas

Conceptos lingüísticos básicos

  • Semántica: rama de la lingüística que estudia el significado de las palabras y las oraciones
  • Sintaxis: estudio de las reglas y estructuras que gobiernan la formación de oraciones
  • Pragmática: análisis de cómo el contexto influye en la interpretación del lenguaje
  • Lexicografía: disciplina dedicada a la elaboración de diccionarios y el estudio de las palabras en sí mismas