P-valor — Glossário Aria Research

Definição estendida

P-valor é a probabilidade, calculada sob a hipótese nula $H_0$ , de obter uma estatística de teste tão extrema ou mais extrema que a observada nos dados. Em notação:

p = P(T \geq t_{\text{obs}} \mid H_0)

onde $T$ é a estatística de teste e $t_{\text{obs}}$ o valor amostral. O conceito remonta a Fisher (1925) na lógica de teste de significância, e foi posteriormente integrado ao framework de decisão de Neyman-Pearson — duas tradições logicamente distintas que a prática contemporânea tende a misturar. O p-valor não é a probabilidade de a hipótese nula ser verdadeira, nem a probabilidade de que o resultado seja devido ao acaso, nem o tamanho do efeito. É apenas uma medida de incompatibilidade entre os dados e o modelo nulo. A American Statistical Association emitiu em 2016 uma declaração formal — primeira em 177 anos da entidade — articulando seis princípios sobre uso e abuso do p-valor, em resposta direta à crise de reprodutibilidade nas ciências empíricas.

Quando se aplica

P-valor é apropriado em testes de hipóteses formais, com hipótese nula bem especificada antes da coleta dos dados, em desenhos com pré-registro ou teoria sólida. Útil para comunicar a quantidade de evidência contra um modelo de referência específico — não para confirmar uma hipótese alternativa. A interpretação responsável reconhece que p-valores são contínuos: um p de 0,049 e um de 0,051 carregam essencialmente a mesma evidência, apesar do limiar de 0,05 sugerir o contrário.

Quando NÃO se aplica

Não serve para inferência bayesiana, onde probabilidade posterior é a quantidade de interesse. Não serve para análise exploratória em larga escala sem correção para múltiplas comparações — testar 100 hipóteses ao acaso produz ~5 falsos positivos com $\alpha = 0{,}05$ . Não substitui tamanho de efeito nem intervalo de confiança em comunicação de resultados. Estudos com amostras enormes podem produzir p-valores minúsculos para efeitos clinicamente irrelevantes; estudos com amostras pequenas podem mascarar efeitos reais com p alto. A ASA recomenda explicitamente abandonar a dicotomia “estatisticamente significativo / não significativo” como critério editorial.

Aplicações por área

— Ciências biomédicas: centro do framework de evidência em ensaios clínicos; alvo principal das reformas pós-crise de reprodutibilidade. — Ciências sociais e psicologia: epicentro da crise de replicação; pré-registro e correção para múltiplos testes hoje exigidos por periódicos sérios. — Engenharias e controle de qualidade: uso técnico em controle estatístico de processos, com convenções estabelecidas. — Machine learning: uso marginal — métricas de performance e validação cruzada substituem testes de hipótese frequentistas.

Armadilhas comuns

A primeira armadilha é interpretar p como “probabilidade de $H_0$ ser verdadeira” — falácia da probabilidade transposta, formalmente incorreta. A segunda é p-hacking: testar múltiplas variáveis, modelos ou subgrupos até encontrar p < 0,05, sem reportar as tentativas falhas. A terceira é HARKing (Hypothesizing After Results are Known): construir narrativa pós-hoc como se a hipótese tivesse sido formulada antes. A quarta é confundir significância estatística com relevância prática — em $n = 10.000$ , diferenças triviais geram p microscópicos. A quinta é o limiar 0,05 tratado como verdade ontológica, não como convenção arbitrária — Fisher propôs 0,05 como “conveniente”, não como linha sagrada. A ASA recomenda, em vez do binário, reportar tamanho de efeito, intervalo de confiança e contexto da hipótese.