Saltar al contenido
Inteligencia Artificial (IA)
- Inteligencia artificial: campo de estudio que busca crear sistemas capaces de realizar tareas que requieren inteligencia humana, como el razonamiento, la percepción y la toma de decisiones
- IA generativa: subcampo de la IA centrado en la creación de contenido nuevo (texto, imágenes, música) mediante modelos entrenados en grandes conjuntos de datos
Aprendizaje automático (Machine Learning)
- Aprendizaje automático: disciplina que permite a los sistemas aprender patrones a partir de datos sin ser programados explícitamente para cada tarea
- Aprendizaje supervisado: método de entrenamiento donde un modelo aprende a mapear entradas a salidas a partir de datos etiquetados
- Aprendizaje no supervisado: técnica en la que un modelo identifica estructuras o patrones en datos no etiquetados
- Aprendizaje por refuerzo: enfoque en el que un agente interactúa con un entorno y aprende a través de recompensas o penalizaciones
Aprendizaje profundo (Deep Learning)
- Redes neuronales artificiales: modelos inspirados en la estructura del cerebro, compuestos por capas de neuronas que procesan información de forma jerárquica
- Transformer: arquitectura de deep learning basada en mecanismos de atención múltiple, fundamental en modelos de lenguaje modernos
- Redes neuronales convolucionales (CNN): tipo de red eficaz para procesar datos con estructura en cuadrícula (imágenes, texto representado como matrices)
- Redes neuronales recurrentes (RNN): redes diseñadas para datos secuenciales, donde las salidas dependen de estados previos
Procesamiento del Lenguaje Natural (NLP)
- Tokenización: proceso de dividir el texto en unidades mínimas (tokens) como palabras, subpalabras o símbolos
- Lematización: reducción de una palabra a su forma canónica o lema mediante reglas lingüísticas
- Stemming: técnica que recorta palabras a su raíz mediante algoritmos heurísticos
- Reconocimiento de entidades nombradas (NER): subtarea que identifica y clasifica menciones de entidades (personas, organizaciones, ubicaciones) en texto
- Análisis de sentimiento: técnica que determina la polaridad (positiva, negativa, neutral) de opiniones expresadas en texto
- Análisis sintáctico (parsing): proceso de generar la estructura gramatical (árbol sintáctico) de una oración
Métricas y evaluación
- BLEU: métrica que compara traducciones generadas con referencias humanas calculando n-gramas coincidentes
- ROUGE: conjunto de métricas que evalúan resúmenes comparando unidades de texto (n-gramas, secuencias) frente a referencias
- Perplexity: medida de incertidumbre de un modelo al predecir texto; valores bajos indican mejor predicción
- F1-score: media armónica de precisión y recall, utilizada para evaluar clasificación y extracción de información
Herramientas y librerías
- spaCy: biblioteca open source en Python para NLP industrial, incluye tokenización, NER, POS‑tagging y word vectors
- NLTK: colección de herramientas y corpus para NLP académico y didáctico en Python
- Transformers: biblioteca de Hugging Face con modelos pretrained para NLP, visión y multimodalidad
- Gensim: librería en Python para modelado de temas y vectores de palabras basados en métodos estadísticos
- TensorFlow y PyTorch: frameworks de deep learning para construir y entrenar redes neuronales a gran escala
Formatos de datos y corpus
- JSON: formato ligero de intercambio de datos basado en texto, ampliamente usado en APIs y configuraciones
- XML: formato de marcado jerárquico para estructurar documentos y metadatos
- Corpus: colección estructurada de textos utilizada para entrenar y evaluar modelos NLP
- Dataset: conjunto de datos, etiquetados o sin etiquetar, optimizado para tareas de machine learning
Empresas y plataformas
- OpenAI: organización de investigación en IA responsable de GPT y ChatGPT, impulsa avances en modelos de lenguaje
- Hugging Face: plataforma y comunidad de modelos NLP open source, facilita uso de transformers
- Google Cloud AI: servicios escalables de IA: Vertex AI, Document AI, Speech‑to‑Text, visión por computadora
- Microsoft Azure Cognitive Services: API y servicios de NLP, visión y voz integrados en Azure para soluciones corporativas
- IBM Watson: plataforma de IA empresarial capaz de analizar lenguaje natural, extraer insights y responder preguntas
Conceptos lingüísticos básicos
- Semántica: rama de la lingüística que estudia el significado de las palabras y las oraciones
- Sintaxis: estudio de las reglas y estructuras que gobiernan la formación de oraciones
- Pragmática: análisis de cómo el contexto influye en la interpretación del lenguaje
- Lexicografía: disciplina dedicada a la elaboración de diccionarios y el estudio de las palabras en sí mismas