¿Qué es un Large Language Model (LLM)?

Un LLM es una red neuronal entrenada con grandes cantidades de texto para predecir y generar lenguaje. Modelos como GPT-4, Claude y Gemini tienen miles de millones de parámetros y pueden responder preguntas, escribir código, resumir documentos y realizar muchas tareas de lenguaje.

¿Cómo genera texto un LLM?

Un LLM produce texto un token a la vez muestreando de una distribución de probabilidad sobre su vocabulario, condicionada en todos los tokens anteriores de la conversación. Este proceso autorregresivo continúa hasta que se produce un token de fin de secuencia o se alcanza un límite de longitud.

¿Cuál es la diferencia entre un LLM y un chatbot?

Un LLM es el modelo subyacente; un chatbot es un producto construido sobre uno. El mismo LLM puede impulsar múltiples interfaces — chat, API, plugin de IDE — cada una con diferentes prompts de sistema, capas de seguridad y UX, mientras comparten los mismos pesos del modelo base.

¿Qué limita cuánto contexto puede procesar un LLM?

La ventana de contexto — medida en tokens — define la longitud combinada máxima de entrada y salida que el modelo puede manejar en una llamada de inferencia. Los contextos más largos aumentan el coste de memoria y cómputo cuadráticamente para los modelos basados en atención, razón por la que el tamaño de la ventana de contexto es una especificación clave.

Glossary

LLM

Large Language Model

By Buğra SözeriPublished May 14, 2026Updated May 31, 2026

LLM (Large Language Model) es una red neuronal entrenada en vastas cantidades de texto — típicamente cientos de miles de millones de palabras — para predecir el siguiente token en una secuencia dado el contexto precedente. El término “grande” se refiere al número de parámetros: los LLMs frontera modernos van desde 100 mil millones hasta más de 2 billones de parámetros.

Arquitectura subyacente: transformer (Vaswani et al., 2017), con variaciones en la división original codificador-decodificador. La familia GPT es solo decodificador; el BERT original era solo codificador; T5 conserva ambos. Los modelos frontera desde 2020 son abrumadoramente solo decodificador.

Pipeline de entrenamiento: preentrenamiento en un corpus de texto amplio para aprender estadísticas del lenguaje, seguido de ajuste de instrucciones y aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) o retroalimentación de IA (RLAIF) para que el modelo siga instrucciones de forma útil.

Principales familias de LLMs a partir de 2026: GPT de OpenAI (3.5, 4, 4o, 5), Claude de Anthropic (3.5 Sonnet, 4, 4.6, 4.7), Gemini de Google (1.5, 2, 2.5), Llama de Meta (2, 3, 4) y varias alternativas de pesos abiertos (Mistral, Qwen, DeepSeek). Compara precios de API en nuestro contador de tokens.

Lo que son y no son los LLMs, mecánicamente: en tiempo de inferencia, un LLM es una función de una secuencia de tokens a una distribución de probabilidad sobre el siguiente token. La generación muestrea de esa distribución (con controles de temperatura, top-p y top-k), añade el token elegido y repite. No hay “módulo de razonamiento” en el sentido clásico — cada salida, ya sea una demostración matemática o un poema, proviene del mismo bucle de siguiente token. El prompting de cadena de pensamiento funciona porque escribir el razonamiento en el contexto permite que el modelo condicione los tokens posteriores en sus propios pasos intermedios, no porque active un modo de inferencia diferente. La ilusión del razonamiento es un efecto secundario del entrenamiento en una distribución enorme de texto humano que ya contiene razonamiento.

Por qué la ventana de contexto y la tokenización importan para el coste: cada cargo de API es por token de entrada y por token de salida, y un modelo con una ventana de contexto de 200 K tokens cobra por la fracción que realmente rellenas. Un PDF de 50 páginas volcado en el prompt puede costar unos céntimos para leer y unos céntimos para generar un resumen de un párrafo — la mayor parte de la factura es la entrada. La tokenización es específica del proveedor: el BPE de GPT, el SentencePiece de Claude y el tokenizador de Gemini producen diferentes recuentos de tokens para el mismo texto, por lo que el modelo más barato en términos de $/token no es necesariamente el más barato en la práctica. Usa nuestro contador de tokens para comparar recuentos de tokens reales entre proveedores antes de comprometerte. Relacionado: token GPT, ventana de contexto.

Ejemplo práctico

Quieres resumir un contrato legal de 40 páginas (~25 000 palabras ≈ 33 000 tokens) usando un modelo frontera con precio de $3 por millón de tokens de entrada y $15 por millón de tokens de salida, pidiendo un resumen de 500 tokens. Coste de entrada: 33 000 / 1 000 000 × $3 = $0,099. Coste de salida: 500 / 1 000 000 × $15 = $0,0075. Total: ~$0,107 por resumen. Imagina hacer esto para 10 000 contratos: $1070 — y eso es antes de reintentos, ahorros por lotes o descuentos por caché de prompts. Si en cambio usas un modelo más barato a $0,25/$1,25 por millón, el coste por documento baja a aproximadamente $0,0095, total ~$95 para el mismo trabajo. La aritmética explica por qué los sistemas LLM de producción enrutan las tareas fáciles a modelos pequeños y reservan el modelo frontera para el 5% más difícil.

Cuándo y por qué importa

Saber cómo funcionan los LLMs previene los fallos de producción más comunes. No tienen memoria entre llamadas API — cada petición debe llevar el historial relevante en la ventana de contexto o usar un sistema de recuperación separado. Confabulan hechos plausiblemente formateados pero falsos, particularmente para eventos recientes, atributos de entidades nombradas y citas; las mitigaciones estándar son la generación aumentada por recuperación (RAG), el uso de herramientas y las verificaciones de fundamentación por afirmación. Son sensibles a la formulación del prompt de formas no obvias — “piensa paso a paso” cambia significativamente la precisión en tareas aritméticas y lógicas, y los ejemplos de pocos disparos pueden hacer variar las respuestas más que la elección del modelo. Referencia: Vaswani et al. — Attention Is All You Need (el artículo del transformer).

Frequently asked questions

¿Qué es un Large Language Model (LLM)?: Un LLM es una red neuronal entrenada con grandes cantidades de texto para predecir y generar lenguaje. Modelos como GPT-4, Claude y Gemini tienen miles de millones de parámetros y pueden responder preguntas, escribir código, resumir documentos y realizar muchas tareas de lenguaje.
¿Cómo genera texto un LLM?: Un LLM produce texto un token a la vez muestreando de una distribución de probabilidad sobre su vocabulario, condicionada en todos los tokens anteriores de la conversación. Este proceso autorregresivo continúa hasta que se produce un token de fin de secuencia o se alcanza un límite de longitud.
¿Cuál es la diferencia entre un LLM y un chatbot?: Un LLM es el modelo subyacente; un chatbot es un producto construido sobre uno. El mismo LLM puede impulsar múltiples interfaces — chat, API, plugin de IDE — cada una con diferentes prompts de sistema, capas de seguridad y UX, mientras comparten los mismos pesos del modelo base.
¿Qué limita cuánto contexto puede procesar un LLM?: La ventana de contexto — medida en tokens — define la longitud combinada máxima de entrada y salida que el modelo puede manejar en una llamada de inferencia. Los contextos más largos aumentan el coste de memoria y cómputo cuadráticamente para los modelos basados en atención, razón por la que el tamaño de la ventana de contexto es una especificación clave.

Published May 14, 2026 · Last reviewed May 31, 2026

LLM

Ejemplo práctico

Cuándo y por qué importa

Frequently asked questions

Related