Processamento de linguagem natural (PLN) — Glossário Aria Research

Definição estendida

Processamento de linguagem natural (PLN, Natural Language Processing) é o campo na intersecção entre inteligência artificial, linguística computacional e ciência da computação dedicado a representar, processar e gerar linguagem humana com sistemas computacionais. A trajetória do campo cobre quatro grandes ondas metodológicas: regras manuais e dicionários (1950–1980), métodos estatísticos clássicos (1990–2010, formalizados em Manning & Schütze, 1999), aprendizado profundo com redes recorrentes e embeddings (2013–2018), e a era atual dos modelos de linguagem em larga escala baseados em arquitetura Transformer (2018+). Tarefas canônicas incluem tokenização, etiquetagem morfossintática, análise sintática, reconhecimento de entidades nomeadas, classificação de documentos, análise de sentimento, sumarização, tradução automática, resposta a perguntas, e geração de texto. Referência didática contemporânea é Jurafsky & Martin, Speech and Language Processing (terceira edição em desenvolvimento aberto), padrão em programas de pós-graduação da área.

Quando se aplica

PLN é apropriado em qualquer projeto que envolva texto não-estruturado em escala — análise de prontuários médicos, classificação de jurisprudência, análise de discurso parlamentar ou de redes sociais, mineração de literatura científica, sumarização automática, sistemas de busca semântica, chatbots e assistentes virtuais, análise de revisões e feedback aberto. Em pesquisa empírica, PLN é hoje a abordagem padrão para qualquer estudo que precise extrair sinal de texto que excede a capacidade de leitura humana sistemática.

Quando NÃO se aplica

Não se aplica quando o problema tem solução com expressões regulares simples ou contagem de palavras-chave — overkill tecnológico introduz fragilidade desnecessária. Não se aplica em corpora muito pequenos (dezenas a poucas centenas de documentos), onde leitura humana cuidadosa é mais robusta e mais informativa. Não substitui análise qualitativa em pesquisa interpretativa séria — PLN classifica e mede, mas não substitui interpretação contextual humana em estudos de discurso, hermenêutica, ou análise crítica. Em domínios com vocabulário altamente técnico ou línguas com baixa representação digital, modelos genéricos têm desempenho ruim, e adaptação de domínio é necessária.

Aplicações por área

— Saúde: extração de informação em prontuários eletrônicos, mineração de literatura biomédica, classificação de relatos de eventos adversos. — Direito: classificação automática de jurisprudência, extração de argumentos, análise de contratos em escala. — Ciências sociais e humanidades digitais: análise de discurso em corpora grandes, mapeamento conceitual em arquivos históricos, estudos de sentiment em redes sociais. — Bibliometria: detecção automática de tópicos em literatura científica, classificação temática de papers, identificação de fronts emergentes.

Armadilhas comuns

A primeira armadilha é assumir que ferramentas pré-treinadas em corpora genéricos transferem bem para domínios especializados — modelos genéricos em jurisprudência brasileira ou prontuários clínicos têm desempenho substancialmente inferior aos especializados. A segunda é ignorar viés linguístico e cultural dos modelos: praticamente todos os modelos atuais foram treinados predominantemente em inglês com vieses sociais documentados. A terceira é confiar em métricas de benchmark genérico sem validar no domínio de aplicação — modelo com 92% de acurácia em GLUE pode cair para 60% em corpus específico. A quarta é tratar PLN como caixa preta sem documentação metodológica — manuscrito que usa modelo generativo precisa declarar versão, prompt, configurações, e protocolo de validação humana, conforme guidelines emergentes (COPE, ICMJE, periódicos individuais). A quinta é confundir tarefas: classificação automática não substitui codificação manual com múltiplos avaliadores em pesquisa qualitativa que exige inter-rater reliability.