LLM (Large Language Model) — Glossário Aria Research

Definição estendida

LLM (large language model) é um modelo de linguagem com escala de bilhões a trilhões de parâmetros, tipicamente treinado via arquitetura Transformer em corpus textual massivo (centenas de bilhões a trilhões de tokens) usando objetivo auto-supervisionado de predição do próximo token. Ancestrais imediatos foram BERT (2018, 110-340M parâmetros) e GPT-2 (2019, 1,5B). O ponto de virada foi GPT-3 (Brown et al., 2020, 175B), que demonstrou capacidades emergentes de aprendizado em contexto (in-context learning, few-shot prompting) sem ajuste fino para cada tarefa. A partir de 2022, modelos de instrução (instruction-tuned LLMs como ChatGPT, baseado em InstructGPT) consolidaram interface conversacional. A partir de 2023, modelos multimodais (GPT-4V, Gemini, Claude) integraram imagens, áudio e vídeo. Bommasani et al. (2021) propuseram o termo foundation models para a categoria mais ampla, capturando o caráter genérico desses sistemas como infraestrutura sobre a qual aplicações específicas são construídas.

Quando se aplica

LLMs são apropriados em tarefas de NLP que se beneficiam de conhecimento amplo de mundo e capacidade de generalização: sumarização de literatura científica em pesquisa, classificação de texto em múltiplas categorias, extração de entidades em domínios novos sem dataset anotado, geração de respostas em sistemas conversacionais, tradução acadêmica, assistência de redação. Em pesquisa, LLMs viabilizam triagem inicial em revisão sistemática (com revisão humana posterior), categorização de respostas abertas em surveys, e extração estruturada de dados de literatura. Aplicação responsável exige documentação explícita do modelo usado, prompt empregado, e validação humana — transparência editorial é exigência crescente em periódicos.

Quando NÃO se aplica

LLMs não substituem análise de dados quantitativos quando o objetivo é resposta numericamente precisa — alucinações são problema documentado em estatística, citações, e fatos específicos. Não substituem peer review humano. Não devem ser usados em decisões de alto risco (saúde, criminal, financeiro) sem validação humana especializada. Não substituem revisão bibliográfica feita por humano em pesquisa rigorosa — geração de citações alucinadas é falha frequente. Não devem ser usados sob NDA estrito sem garantia de não-vazamento (LLMs comerciais armazenam interações por default, mesmo que com possibilidade de opt-out). Em pesquisa que envolve dados de pacientes ou propriedade intelectual sensível, modelos locais (Llama, Mistral) são alternativa.

Aplicações por área

— Pesquisa em humanidades e ciências sociais: análise de discurso em escala, categorização temática, leitura distante de corpus textual histórico. — Saúde: auxílio em revisão sistemática, classificação de prontuários (com cuidado regulatório), assistência redacional para pacientes. — Computação e engenharias: geração de código, debugging, documentação técnica; integração com IDEs (GitHub Copilot, Cursor). — Educação: tutoria adaptativa, geração de exercícios, feedback automatizado — com vigilância sobre integridade acadêmica.

Armadilhas comuns

A primeira armadilha é confundir fluência com correção factual — LLMs produzem texto fluente sobre qualquer tema, inclusive sobre temas em que não têm informação confiável, com a mesma confiança aparente. A segunda é não verificar citações geradas: alucinação de DOIs, autores e títulos é problema documentado e exige validação humana antes de qualquer uso editorial. A terceira é tratar resposta do LLM como fonte primária — resposta deve ser ponto de partida para verificação, não conclusão. A quarta é assumir reprodutibilidade: modelos comerciais mudam silenciosamente entre versões; mesmo prompt produz resultados diferentes ao longo do tempo. Documentar versão exata é prática mínima. A quinta é ignorar viés representacional: corpus de treino reflete vieses históricos e geográficos (sobre-representação de inglês, perspectivas anglófonas), e isso aparece em respostas em maneiras sutis e não-sutis.