Glossary
LLM
Modelo de Linguagem Grande
By Buğra SözeriPublished Updated
LLM (Modelo de Linguagem Grande) é uma rede neural treinada em vastas quantidades de texto — tipicamente centenas de bilhões de palavras — para prever o próximo token em uma sequência dado o contexto anterior. O “grande” refere-se à contagem de parâmetros: LLMs de fronteira modernos variam de 100 bilhões a 2+ trilhões de parâmetros.
Arquitetura subjacente: transformer (Vaswani et al., 2017), com variações sobre o split original codificador-decodificador. A família GPT é somente decodificador; o BERT original era somente codificador; o T5 retém ambos. Os modelos de fronteira desde 2020 são predominantemente somente decodificadores.
Pipeline de treinamento: pré-treinamento em um corpus de texto amplo para aprender estatísticas de linguagem, seguido de ajuste de instrução e aprendizado por reforço a partir de feedback humano (RLHF) ou feedback de IA (RLAIF) para fazer o modelo seguir instruções de forma útil.
Principais famílias de LLM em 2026: GPT da OpenAI (3.5, 4, 4o, 5), Claude da Anthropic (3.5 Sonnet, 4, 4.6, 4.7), Gemini do Google (1.5, 2, 2.5), Llama da Meta (2, 3, 4) e várias alternativas de peso aberto (Mistral, Qwen, DeepSeek). Compare o preço de API em nosso contador de tokens.
O que os LLMs são e não são, mecanicamente: no tempo de inferência, um LLM é uma função de uma sequência de tokens para uma distribuição de probabilidade sobre o próximo token. A geração faz amostragem dessa distribuição (com controles de temperatura, top-p e top-k), acrescenta o token escolhido e repete. Não há “módulo de raciocínio” no sentido clássico — cada saída, seja uma prova matemática ou um poema, vem do mesmo loop de próximo token. O prompting de cadeia de pensamento funciona porque escrever o raciocínio no contexto permite que o modelo condicione tokens posteriores em suas próprias etapas intermediárias, não porque aciona um modo de inferência diferente. A ilusão de raciocínio é um efeito colateral do treinamento em uma enorme distribuição de texto humano que já contém raciocínio.
Por que a janela de contexto e a tokenização importam para o custo: cada cobrança de API é por token de entrada e por token de saída, e um modelo com uma janela de contexto de 200 K tokens cobra por qualquer fração que você realmente preencher. Um PDF de 50 páginas despejado no prompt pode custar alguns centavos para ler e alguns centavos para gerar um resumo de um parágrafo — a maior parte da conta é a entrada. A tokenização é específica do provedor: BPE do GPT, SentencePiece do Claude e o tokenizador do Gemini produzem contagens de tokens diferentes para o mesmo texto, então o modelo mais barato em base de $/token não é necessariamente o mais barato na prática. Use nosso contador de tokens para comparar contagens reais de tokens entre provedores antes de se comprometer. Relacionado: token GPT, janela de contexto.
Exemplo prático
Você quer resumir um contrato legal de 40 páginas (~25.000 palavras ≈ 33.000 tokens) usando um modelo de fronteira com preço de $3 por milhão de tokens de entrada e $15 por milhão de tokens de saída, pedindo um resumo de 500 tokens. Custo de entrada: 33.000 / 1.000.000 × $3 = $0,099. Custo de saída: 500 / 1.000.000 × $15 = $0,0075. Total: ~$0,107 por resumo. Agora imagine fazer isso para 10.000 contratos: $1.070 — e isso é antes de qualquer retentativa, economias de lote ou descontos de cache de prompt. Se você usar um modelo mais barato a $0,25/$1,25 por milhão, o custo por documento cai para cerca de $0,0095, total ~$95 pelo mesmo trabalho. A aritmética explica por que sistemas LLM em produção roteiam tarefas fáceis para modelos pequenos e reservam o modelo de fronteira para os 5% mais difíceis.
Quando e por que importa
Saber como os LLMs funcionam evita as falhas de produção mais comuns. Eles não têm memória entre chamadas de API — cada requisição deve carregar o histórico relevante na janela de contexto ou usar um sistema de recuperação separado. Eles confabulam fatos plausíveis mas falsos, particularmente para eventos recentes, atributos de entidades nomeadas e citações; as mitigações padrão são geração aumentada por recuperação (RAG), uso de ferramentas e verificações de fundação por alegação. Eles são sensíveis ao fraseamento do prompt de formas não óbvias — “pense passo a passo” muda significativamente a precisão em tarefas aritméticas e lógicas, e exemplos de poucas tentativas podem balançar respostas mais do que a escolha do modelo. Referência: Vaswani et al. — Attention Is All You Need (o artigo do transformer).
Frequently asked questions
- O que é um modelo de linguagem grande (LLM)?
- Um LLM é uma rede neural treinada em grandes quantidades de texto para prever e gerar linguagem. Modelos como GPT-4, Claude e Gemini têm bilhões de parâmetros e podem responder perguntas, escrever código, resumir documentos e realizar muitas tarefas de linguagem.
- Como um LLM gera texto?
- Um LLM produz texto um token por vez, amostrando de uma distribuição de probabilidade sobre seu vocabulário, condicionado em todos os tokens anteriores na conversa. Esse processo autorregressivo continua até que um token de fim de sequência seja produzido ou um limite de comprimento seja atingido.
- Qual é a diferença entre um LLM e um chatbot?
- Um LLM é o modelo subjacente; um chatbot é um produto construído sobre ele. O mesmo LLM pode alimentar múltiplas interfaces — chat, API, plugin de IDE — cada uma com diferentes prompts de sistema, camadas de segurança e UX, enquanto compartilham os mesmos pesos de modelo base.
- O que limita quanto contexto um LLM pode processar?
- A janela de contexto — medida em tokens — define o comprimento máximo combinado de entrada e saída que o modelo pode processar em uma chamada de inferência. Contextos mais longos aumentam o custo de memória e computação quadraticamente para modelos baseados em atenção, razão pela qual o tamanho da janela de contexto é uma especificação-chave.
Related
Published May 14, 2026 · Last reviewed May 31, 2026