Definição estendida
P-valor é a probabilidade, calculada sob a hipótese nula , de obter uma estatística de teste tão extrema ou mais extrema que a observada nos dados. Em notação:
onde é a estatística de teste e o valor amostral. O conceito remonta a Fisher (1925) na lógica de teste de significância, e foi posteriormente integrado ao framework de decisão de Neyman-Pearson — duas tradições logicamente distintas que a prática contemporânea tende a misturar. O p-valor não é a probabilidade de a hipótese nula ser verdadeira, nem a probabilidade de que o resultado seja devido ao acaso, nem o tamanho do efeito. É apenas uma medida de incompatibilidade entre os dados e o modelo nulo. A American Statistical Association emitiu em 2016 uma declaração formal — primeira em 177 anos da entidade — articulando seis princípios sobre uso e abuso do p-valor, em resposta direta à crise de reprodutibilidade nas ciências empíricas.
Quando se aplica
P-valor é apropriado em testes de hipóteses formais, com hipótese nula bem especificada antes da coleta dos dados, em desenhos com pré-registro ou teoria sólida. Útil para comunicar a quantidade de evidência contra um modelo de referência específico — não para confirmar uma hipótese alternativa. A interpretação responsável reconhece que p-valores são contínuos: um p de 0,049 e um de 0,051 carregam essencialmente a mesma evidência, apesar do limiar de 0,05 sugerir o contrário.
Quando NÃO se aplica
Não serve para inferência bayesiana, onde probabilidade posterior é a quantidade de interesse. Não serve para análise exploratória em larga escala sem correção para múltiplas comparações — testar 100 hipóteses ao acaso produz ~5 falsos positivos com . Não substitui tamanho de efeito nem intervalo de confiança em comunicação de resultados. Estudos com amostras enormes podem produzir p-valores minúsculos para efeitos clinicamente irrelevantes; estudos com amostras pequenas podem mascarar efeitos reais com p alto. A ASA recomenda explicitamente abandonar a dicotomia “estatisticamente significativo / não significativo” como critério editorial.
Aplicações por área
— Ciências biomédicas: centro do framework de evidência em ensaios clínicos; alvo principal das reformas pós-crise de reprodutibilidade. — Ciências sociais e psicologia: epicentro da crise de replicação; pré-registro e correção para múltiplos testes hoje exigidos por periódicos sérios. — Engenharias e controle de qualidade: uso técnico em controle estatístico de processos, com convenções estabelecidas. — Machine learning: uso marginal — métricas de performance e validação cruzada substituem testes de hipótese frequentistas.
Armadilhas comuns
A primeira armadilha é interpretar p como “probabilidade de ser verdadeira” — falácia da probabilidade transposta, formalmente incorreta. A segunda é p-hacking: testar múltiplas variáveis, modelos ou subgrupos até encontrar p < 0,05, sem reportar as tentativas falhas. A terceira é HARKing (Hypothesizing After Results are Known): construir narrativa pós-hoc como se a hipótese tivesse sido formulada antes. A quarta é confundir significância estatística com relevância prática — em , diferenças triviais geram p microscópicos. A quinta é o limiar 0,05 tratado como verdade ontológica, não como convenção arbitrária — Fisher propôs 0,05 como “conveniente”, não como linha sagrada. A ASA recomenda, em vez do binário, reportar tamanho de efeito, intervalo de confiança e contexto da hipótese.