Glossário · 82 verbetes
Vocabulário.
Da pesquisa contemporânea.
Glossário técnico bilíngue de termos centrais à pesquisa acadêmica contemporânea, com foco em escrita, dados, estatística e métodos computacionais. Cada verbete inclui contexto de aplicação, limites de uso e armadilhas frequentes.
Verbetes em produção. Volte em breve.
Agradecimentos (acknowledgments) Seção do manuscrito que reconhece contribuições não suficientes para autoria ICMJE: financiamento, infraestrutura, suporte técnico, revisão crítica, prestação de serviço. Forma padrão de declarar contribuições substantivas fora dos quatro critérios de autoria.
Escrita Ajuste fino Adaptação de um modelo pré-treinado a uma tarefa ou domínio específico via treinamento adicional sobre dados rotulados menores. Padrão dominante em PLN entre 2018 e 2022, ainda relevante para BERT e variantes especializadas em domínios técnicos.
IA/ML Alfa de Cronbach Coeficiente clássico de consistência interna para escalas e instrumentos, proposto por Cronbach em 1951. Apesar do uso massivo em psicometria, hoje é criticado por pressupostos restritivos — alternativas como ômega de McDonald são preferidas.
Estatística Análise bibliométrica Mapeamento quantitativo da produção científica de um campo via metadados de artigos: redes de coautoria, co-citação, evolução temporal, fronts emergentes. Hoje usa Scopus, Web of Science e ferramentas como VOSviewer e Bibliometrix.
Estatística Análise cienciométrica Estudo quantitativo da ciência como sistema: produção, colaboração, citações, impacto, dinâmica de campos. Difere da bibliometria por escopo mais amplo (políticas, indicadores nacionais). Métodos: análise de redes, mineração textual, análise temporal.
Transversal Análise de cluster Família de métodos não-supervisionados que agrupa observações por similaridade. Algoritmos clássicos: k-means (MacQueen, 1967), agrupamento hierárquico, DBSCAN. Validação por silhouette (Rousseeuw, 1987), estabilidade e interpretabilidade.
Estatística Análise de redes Família de métodos para estudar relações entre entidades representadas como nós e arestas. Métricas centrais: centralidade (grau, betweenness, eigenvector), densidade, modularidade, detecção de comunidades. Wasserman e Faust (1994) é a referência clássica.
Estatística Análise de sentimento Subárea de NLP que classifica polaridade afetiva (positiva, negativa, neutra) ou identifica emoções específicas em texto. Abordagens evoluíram de léxicos manuais a classificadores supervisionados a modelos baseados em transformers. Pang e Lee (2008) consolidaram a área.
IA/ML Análise de sobrevivência Família de métodos para tempo até evento (morte, recidiva, falha) com tratamento explícito de dados censurados. Estimador Kaplan-Meier (1958) para função de sobrevivência; modelo de Cox (1972) para regressão de hazard ratios.
Estatística Análise fatorial confirmatória (CFA) Técnica de modelagem que testa se uma estrutura fatorial hipotetizada *a priori* se ajusta aos dados observados. Padrão psicométrico para validar instrumentos de medida com escalas e itens; estabelecida por Jöreskog em 1969 e implementada hoje em lavaan, Mplus e AMOS.
Estatística Análise fatorial exploratória (EFA) Técnica multivariada de redução de dados que identifica fatores latentes subjacentes a um conjunto de variáveis observadas, sem hipótese a priori sobre a estrutura. Tipicamente precede CFA na validação de instrumentos de mensuração.
Estatística Anotação humana e inter-annotator agreement Processo de rotulagem manual de dados (texto, imagem, áudio) por anotadores humanos, base de datasets supervisionados em ML. Concordância entre anotadores (IAA) é medida via kappa de Cohen (1960), alpha de Krippendorff. Critério de qualidade essencial.
IA/ML ANOVA Análise de variância (Analysis of Variance): técnica estatística clássica para comparar médias entre três ou mais grupos. Estabelecida por Fisher em 1925 e fundação dos delineamentos experimentais em ciências biomédicas, agrárias e comportamentais.
Estatística APC (Article Processing Charge) Taxa cobrada por periódicos OA gold ou hybrid para processar e publicar um artigo aceito. Varia tipicamente de US$ 500 a US$ 12.000 dependendo de prestígio do periódico. Pode ser paga por autor, instituição, agência de fomento ou waiver.
Escrita Arquitetura Transformer Arquitetura de rede neural baseada exclusivamente em mecanismos de atenção, proposta por Vaswani et al. em 2017. Substituiu redes recorrentes em quase toda tarefa de PLN e tornou-se a base estrutural de BERT, GPT, Claude, Gemini e da geração atual de modelos de linguagem.
IA/ML AUC-ROC Área sob a curva ROC (Receiver Operating Characteristic) — métrica de discriminação de classificadores binários que integra performance em todos os limiares de decisão. Hanley e McNeil (1982) formalizaram interpretação probabilística. Varia de 0,5 (aleatório) a 1,0 (perfeito).
IA/ML BERT Modelo de linguagem pré-treinado baseado em arquitetura Transformer, desenvolvido pelo Google em 2018. Treinado por *masked language modeling*, BERT estabeleceu o paradigma pré-treino + ajuste fino que dominou processamento de linguagem natural até a era dos LLMs generativos.
IA/ML BERTopic Algoritmo moderno de modelagem de tópicos que combina embeddings contextuais (BERT), redução de dimensionalidade (UMAP), clustering (HDBSCAN) e c-TF-IDF. Grootendorst (2022) consolidou. Costuma superar LDA em coerência semântica em corpora pequenos a médios.
IA/ML Bootstrap Família de métodos de reamostragem com reposição que estima distribuição amostral de um estimador a partir de uma única amostra. Proposto por Efron (1979). Permite IC e teste de hipótese sem suposição paramétrica de normalidade.
Estatística Carta de apresentação (cover letter) Documento curto que acompanha a submissão de manuscrito ao periódico, dirigido ao editor, articulando relevância do trabalho, fit com escopo da revista, e declarações editoriais (originalidade, ausência de submissão paralela). Influencia a triagem editorial inicial.
Escrita CiteScore Métrica bibliométrica lançada pela Elsevier em dezembro de 2016, baseada em dados do Scopus. Calcula citações recebidas em um ano por documentos publicados nos quatro anos anteriores. Aberta, gratuita e cobre mais periódicos que o JIF.
Escrita CLIP (Contrastive Language-Image Pre-training) Modelo multimodal pré-treinado por OpenAI que aprende representações alinhadas de imagens e texto via aprendizado contrastivo em 400M pares imagem-legenda da web. Radford et al. (2021). Habilita zero-shot classification, image search, base de modelos generativos visuais.
IA/ML Comitê de ética em pesquisa Órgão institucional independente que avalia eticamente projetos de pesquisa com seres humanos. CEP/CONEP no Brasil, IRB nos EUA, REC no Reino Unido. Bases: Helsinque (1964), Belmont Report (1979), princípios de Beauchamp e Childress.
Transversal Conflito de interesses Situação em que interesses secundários (financeiros, pessoais, profissionais) podem indevidamente influenciar julgamento sobre interesse primário (rigor da pesquisa). Declaração obrigatória em manuscritos via formulário ICMJE. Reportar não elimina; transparência é a defesa.
Escrita COPE (Committee on Publication Ethics) Organização internacional sem fins lucrativos fundada em 1997 que estabelece padrões de ética editorial. Mantém Core Practices, Code of Conduct e fluxogramas para má conduta. Mais de 13.000 periódicos e editoras membros. Referência operacional em integridade publicacional.
Escrita Dados ausentes e imputação múltipla Tratamento de valores faltantes em dados de pesquisa. Mecanismos: MCAR, MAR, MNAR. Imputação múltipla (Rubin, 1987) gera m datasets completos via amostragem da distribuição posterior, combinando estimativas via regras de Rubin para inferência válida.
Estatística Dados sensíveis em pesquisa Categorias de dados que requerem proteções extras: saúde, dados genéticos, orientação sexual, religião, situação financeira, geolocalização. Reguladas por LGPD (Brasil), GDPR (UE), HIPAA (EUA). Anonimização não é solução final — re-identificação é risco crescente.
Transversal Divisão treino/validação/teste Particionamento de um conjunto de dados em três subconjuntos disjuntos para machine learning: treino (ajuste de parâmetros), validação (seleção de hiperparâmetros) e teste (avaliação final imparcial). Padrão metodológico para evitar contaminação.
IA/ML DOI Identificador persistente para objetos digitais, definido pela ISO 26324 e administrado pela International DOI Foundation. Padrão de fato em comunicação acadêmica para citação estável de artigos, datasets, capítulos e outras saídas de pesquisa.
Transversal Embeddings Representações vetoriais densas de tokens — palavras, sentenças, documentos, imagens — em espaço contínuo de dimensão fixa. Formalizadas em PLN por word2vec (Mikolov, 2013); hoje base de busca semântica, RAG e da maioria das aplicações práticas de IA com texto.
IA/ML Engenharia de features Conjunto de práticas para transformar dados brutos em features informativas para modelos de ML: codificação, normalização, criação de features derivadas, seleção, redução. Domingos (2012) articulou como variável central da performance prática em ML.
IA/ML Errata e corrigenda Instrumentos editoriais para corrigir erros em artigo publicado, preservando os achados. Errata: erro do periódico (composição, figura, tipografia). Corrigenda: erro do autor (cálculo, atribuição, dado). Distintos da retratação, que remove confiabilidade integral.
Escrita Estratificação Q1/Q2/Q3/Q4 Classificação de periódicos em quatro quartis (Q1 a Q4) por área temática, baseada em métrica bibliométrica (JIF, SJR ou CiteScore). Q1 reúne os 25% mais bem ranqueados da área; Q4 os 25% mais baixos. Critério editorial e de avaliação dominante.
Escrita Fairness algorítmica Subárea de ML que estuda viés e discriminação em sistemas algorítmicos, com critérios formais (parity demográfica, igualdade de oportunidades, calibração) frequentemente em tensão matemática entre si. Barocas, Hardt e Narayanan (2019) consolidaram a referência.
IA/ML Fator de impacto Razão entre citações recebidas e itens citáveis publicados nos dois anos anteriores em um periódico — métrica bibliométrica criada por Eugene Garfield em 1955 e publicada anualmente pelo JCR da Clarivate. Reconhecida pelo uso e pela contestação (DORA 2012, CoARA 2022).
Escrita Fine-tuning vs prompt engineering Comparação aplicada entre dois paradigmas de adaptação de LLMs: fine-tuning (atualização de pesos com dados específicos) e prompt engineering (design de instruções sem modificar o modelo). Trade-off entre custo, controle, latência e generalização.
IA/ML ICMJE International Committee of Medical Journal Editors. Comitê internacional que estabelece convenções editoriais para autoria, conflitos de interesse, revisão por pares e integridade na produção científica em ciências biomédicas e da saúde, com adoção por extensão em outras áreas.
Escrita Índice-h Métrica bibliométrica proposta por Jorge Hirsch em 2005 que combina produtividade e impacto: pesquisador tem h-index igual a h se publicou h artigos com ao menos h citações cada. Largamente usado e largamente contestado em métodos quantitativos de avaliação.
Escrita Intervalo de confiança Faixa de valores construída a partir de dados amostrais que, em uso repetido, contém o parâmetro populacional verdadeiro com probabilidade igual ao nível de confiança nominal (tipicamente 95%). Formalizado por Neyman em 1937.
Estatística MANOVA Análise multivariada de variância: extensão da ANOVA para múltiplas variáveis dependentes simultaneamente. Testa se médias diferem entre grupos considerando estrutura de correlação entre desfechos. Estatísticas de teste: Wilks Lambda, Pillai, Hotelling-Lawley, Roy.
Estatística Mediação e moderação Mediação: variável M explica COMO X afeta Y (mecanismo causal). Moderação: variável W modifica QUANDO ou PARA QUEM o efeito de X em Y ocorre (interação). Distinção formalizada por Baron e Kenny (1986); abordagem moderna via Hayes (2018).
Estatística Métricas de classificação Família de métricas para avaliar modelos de classificação supervisionada: accuracy, precision, recall, F1-score, AUC-ROC. Cada uma captura aspecto diferente do trade-off entre falsos positivos e falsos negativos. Powers (2011) sintetizou o framework canônico.
IA/ML Modelagem de equações estruturais (SEM) Família de técnicas multivariadas que combina análise fatorial e regressão múltipla para testar redes de relações entre variáveis latentes e observadas. Padrão em ciências sociais, comportamentais e da saúde para validar modelos teóricos complexos.
Estatística Modelagem de tópicos (LDA) Latent Dirichlet Allocation: modelo probabilístico generativo que descobre tópicos latentes em corpus de documentos. Cada documento é mistura de tópicos; cada tópico é distribuição sobre palavras. Blei, Ng e Jordan (2003) consolidaram o framework canônico em NLP clássico.
IA/ML Modelos mistos (GLMM) Modelos generalizados que combinam efeitos fixos (parâmetros populacionais) e efeitos aleatórios (variação entre grupos/sujeitos). Apropriados para dados aninhados, longitudinais ou agrupados. Implementação canônica em R via lme4 (Bates et al., 2015).
Estatística Open Access Modelo de publicação acadêmica em que o conteúdo é gratuito e livremente acessível ao leitor, sem barreira de assinatura. Existe em quatro variantes principais — gold, green, diamond e hybrid — com diferentes modelos de financiamento e licenciamento.
Escrita ORCID Identificador único e persistente para pesquisadores, no formato de 16 dígitos. Mantido pela ORCID Inc., organização sem fins lucrativos. Hoje exigido por grande parte de financiadores e periódicos como condição para submissão e contemplação de fomento.
Transversal Overfitting Fenômeno em que um modelo de machine learning ajusta-se excessivamente ao ruído amostral do conjunto de treino, perdendo capacidade de generalizar. Detectado pelo gap entre erro de treino (baixo) e erro de teste (alto). Underfitting é o problema oposto.
IA/ML P-valor Probabilidade de obter, sob a hipótese nula, valor de estatística de teste tão extremo ou mais extremo que o observado. Métrica central no teste de hipóteses frequentista. ASA emitiu declaração formal em 2016 alertando contra interpretações equivocadas.
Estatística Pareamento por escore de propensão Método de inferência causal em estudos observacionais que pareia tratados e controles com base no escore de propensão — probabilidade estimada de receber tratamento dadas covariáveis. Rosenbaum e Rubin (1983) formalizaram. Reduz viés de confundimento observável.
Estatística Periódico predatório Periódico que cobra APC sem oferecer revisão por pares rigorosa nem práticas editoriais legítimas, explorando autores e poluindo a literatura científica. Termo cunhado por Jeffrey Beall em 2010. Definição consensual em Grudniewicz et al. (2019, Nature).
Escrita Plan S Iniciativa internacional lançada em 2018 pela cOAlition S — coalizão de financiadores de pesquisa europeus e globais — que exige acesso aberto imediato e sem embargo a publicações resultantes de fomento dos signatários. Implementação plena desde 2021.
Escrita Plataforma Lattes (CNPq) Sistema integrado do CNPq que mantém currículos de pesquisadores brasileiros, grupos de pesquisa (Diretório) e instituições. Padrão nacional para avaliação acadêmica, distribuição de bolsas e financiamento. Em operação desde 1999.
Transversal Plataforma Sucupira (CAPES) Sistema da CAPES para coleta de dados de programas de pós-graduação brasileiros (mestrado, doutorado). Base da avaliação quadrienal: notas 3-7 que determinam reconhecimento de cursos e distribuição de bolsas. Em operação desde 2014, substituindo o CAPES Coleta.
Transversal Poder estatístico Probabilidade de um teste estatístico rejeitar corretamente a hipótese nula quando ela é falsa, ou seja, $1 - \beta$. Padrão mínimo recomendado: 0,80. Cohen (1988) formalizou cálculo de tamanho amostral baseado em poder. Pré-registro hoje exige análise a priori.
Estatística Pré-registro de pesquisa Depósito formal de hipóteses, métodos e plano de análise antes da coleta ou análise de dados, em repositório com timestamp verificável (OSF, AsPredicted). Distingue confirmatório de exploratório. Nosek et al. (2018) sintetizaram a revolução.
Transversal Preprint Versão de manuscrito acadêmico depositada em repositório aberto antes ou paralelamente à submissão a periódico. arXiv (1991) iniciou a prática em física; bioRxiv (2013), SciELO Preprints e SSRN expandiram para outras áreas. Recebe DOI, é citável.
Escrita Princípios FAIR Conjunto de quatro princípios para gestão de dados de pesquisa: Findable, Accessible, Interoperable, Reusable. Articulados por Wilkinson et al. (2016, Scientific Data). Padrão internacional adotado por European Commission, NIH e funders globais.
Transversal PRISMA Preferred Reporting Items for Systematic reviews and Meta-Analyses: diretriz internacional para reporting de revisões sistemáticas. Versão atual: PRISMA 2020 (Page et al., BMJ). 27 itens em checklist + diagrama de fluxo. Adoção quase universal em saúde.
Transversal Processamento de linguagem natural (PLN) Campo da inteligência artificial e linguística computacional dedicado a representar, processar e gerar linguagem humana com sistemas computacionais. Engloba desde análise sintática clássica até modelos de linguagem em larga escala como BERT e GPT.
IA/ML PROSPERO International Prospective Register of Systematic Reviews, mantido pelo CRD (Centre for Reviews and Dissemination, University of York) desde 2011. Registra protocolos de revisões sistemáticas em saúde antes do início, com timestamp permanente e DOI. Padrão internacional.
Transversal RAG (Recuperação aumentada por geração) Recuperação aumentada por geração (Retrieval-Augmented Generation): arquitetura que combina busca em base externa de documentos com modelo gerador de linguagem. Padrão atual para responder perguntas com fundamentação documental e reduzir alucinação em LLMs.
IA/ML Regressão linear Modelo estatístico que estima a relação linear entre uma variável dependente e uma ou mais independentes. Fundação metodológica de boa parte da estatística aplicada e ponto de entrada didático para modelos preditivos mais complexos.
Estatística Regressão logística Modelo estatístico para variável dependente categórica que estima probabilidade de pertencer a uma categoria como função logística de preditores. Variantes: binária, multinomial e ordinal. Cox (1958) formalizou para resposta binária.
Estatística Reprodutibilidade e replicabilidade Reprodutibilidade: obter mesmos resultados com mesmos dados e código. Replicabilidade: obter resultados consistentes em estudo independente com nova coleta. Distinção formalizada por Goodman et al. (2016) e adotada pela National Academies (2019).
Transversal Resposta a pareceristas Documento técnico que acompanha versão revisada de manuscrito, respondendo ponto a ponto aos comentários dos pareceristas com modificações no texto e justificativas. Determinante para decisão de revisão: aceitar, revisar de novo, rejeitar.
Escrita Retratação (retraction) Remoção formal de artigo do registro científico devido a erro fundamental, má conduta ou irreprodutibilidade. Não é apagamento: artigo permanece com aviso de retratação visível e DOI ativo. COPE define fluxo. Retraction Watch monitora desde 2010.
Escrita Revisão de escopo (scoping review) Síntese estruturada que mapeia literatura sobre tópico amplo, identifica conceitos-chave, lacunas e tipos de evidência. Distingue-se de revisão sistemática por escopo mais amplo e ausência de avaliação de qualidade. Framework de Arksey e O'Malley (2005); reporting via PRISMA-ScR.
Transversal Revisão por pares Mecanismo central de validação científica em que pareceristas externos avaliam manuscrito antes da publicação. Modalidades: single-blind, double-blind, open peer review, post-publication peer review. Estrutura herdada do século XVIII, formalizada no século XX.
Escrita Revisão sistemática Síntese estruturada de literatura sobre pergunta de pesquisa específica, com método explícito, reproduzível e pré-registrado. Identifica, avalia e integra estudos relevantes minimizando viés. PRISMA 2020 é a diretriz de reporting padrão.
Transversal Segmentação semântica e de instância Tarefas de visão computacional que classificam cada pixel de uma imagem. Segmentação semântica atribui rótulo de classe por pixel (sem distinguir instâncias); segmentação de instância distingue objetos individuais da mesma classe. mIoU é métrica padrão.
IA/ML Séries temporais Família de métodos estatísticos para dados ordenados no tempo, modelando tendência, sazonalidade, autocorrelação e ruído. Decomposição clássica X = T + S + R; modelos paramétricos canônicos ARIMA (Box e Jenkins, 1976). Forecasting é objetivo central.
Estatística SHAP values SHapley Additive exPlanations: framework de interpretabilidade de modelos de ML que atribui contribuição de cada feature à predição individual via valores de Shapley da teoria dos jogos cooperativos. Lundberg e Lee (2017) unificaram métodos prévios.
IA/ML SJR (SCImago Journal Rank) Indicador de prestígio de periódicos proposto por González-Pereira et al. em 2010. Aplica algoritmo derivado do PageRank a citações do Scopus, ponderando cada citação pelo prestígio da revista que cita. Aberto, gratuito, alternativa estrutural ao JIF.
Escrita Tamanho de efeito Medida quantitativa da magnitude de um efeito ou diferença observada, independente do tamanho da amostra. Inclui famílias d (Cohen), r (correlação) e razão de chances. Componente exigido em reporting moderno por DORA, ASA e estilos APA/AMA.
Estatística Taxonomia CRediT Contributor Roles Taxonomy: padrão internacional de 14 categorias de contribuição em manuscritos acadêmicos, mantido pela CASRAI/NISO. Substitui a noção genérica de autoria por declaração explícita de papéis. Adotado por mais de 100 mil periódicos.
Escrita Transfer learning Paradigma de ML em que conhecimento aprendido em uma tarefa-fonte é transferido para tarefa-alvo relacionada, reduzindo dados rotulados e tempo de treino necessários. Pan e Yang (2010) consolidaram a taxonomia. Base do uso de modelos pré-treinados em deep learning moderno.
IA/ML Validação cruzada Técnica de avaliação de modelos preditivos que particiona o dataset em k subconjuntos, treina k vezes alternando qual subconjunto serve de validação, e reporta a média do erro. Padrão para datasets pequenos onde divisão treino/teste fixa é instável.
IA/ML Validade convergente e discriminante Critérios de validade de instrumento: convergente (itens do mesmo construto correlacionam fortemente) e discriminante (itens de construtos distintos correlacionam fracamente). Operacionalização clássica via AVE de Fornell e Larcker (1981) e HTMT de Henseler et al. (2015).
Estatística