Tamanho de efeito — Glossário Aria Research

Definição estendida

Tamanho de efeito (effect size) é qualquer medida quantitativa da magnitude de um fenômeno — diferença entre médias, força de associação, proporção de variância explicada — que seja, idealmente, independente do tamanho amostral. Contraste com $p$ -valor, que confunde magnitude e tamanho amostral: amostra grande com efeito trivial pode produzir $p$ minúsculo, enquanto amostra pequena com efeito real pode produzir $p$ alto. A família mais comum em pesquisa biomédica e comportamental é o $d$ de Cohen para diferença entre médias:

d = \frac{\bar{x}_1 - \bar{x}_2}{s}

onde $s$ é o desvio padrão combinado dos dois grupos. Cohen (1988) propôs convenções de magnitude — pequeno ( $d \approx 0,2$ ), médio ( $d \approx 0,5$ ), grande ( $d \approx 0,8$ ) — válidas para ciências comportamentais mas não universais. Outras famílias incluem $r$ (correlação de Pearson, ou correlação parcial), $\eta^2$ e $\omega^2$ (proporção de variância em ANOVA), razão de chances e risco relativo (epidemiologia), e $\beta$ padronizado em regressão. Reporting moderno (DORA, ASA, APA, AMA, CONSORT) exige tamanho de efeito ao lado de $p$ -valor.

Quando se aplica

Tamanho de efeito é exigido sempre que resultado quantitativo é reportado em manuscrito acadêmico moderno. É essencial em meta-análise (combinação de estudos requer métrica comparável de magnitude), em cálculos de poder estatístico a priori (planejamento de amostra requer estimativa de efeito esperado), e em interpretação clínica (efeito estatisticamente significativo pode ser clinicamente irrelevante). É também ferramenta crítica em comunicação para audiências não-técnicas — medida em unidades padronizadas é mais interpretável que coeficiente bruto sem contexto.

Quando NÃO se aplica

Não se aplica como única medida quando contexto requer também intervalo de confiança e $p$ -valor — os três se complementam, não se substituem. Convenções de magnitude (pequeno/médio/grande) não são universais: o que é “grande” em psicologia social pode ser “pequeno” em epidemiologia clínica, e o que é trivial em economia pode ser substantivo em ecologia. Para variáveis com unidades naturais interpretáveis (mortalidade, custo em moeda, dias), a métrica original pode ser mais informativa que o tamanho de efeito padronizado. Em desenhos puramente exploratórios ou descritivos, sem hipótese formal, tamanho de efeito perde parte do significado interpretativo.

Aplicações por área

— Saúde e biomédicas: ensaios clínicos com NNT (número necessário a tratar), razão de chances, redução de risco absoluto/relativo. — Psicologia e ciências comportamentais: território natural do $d$ de Cohen e do $r$ ; reporting padrão em APA. — Educação: intervenções pedagógicas medidas em desvios-padrão de ganho de aprendizagem (Hattie e similares). — Meta-análises de qualquer área: combinação de estudos requer transformação para métrica de efeito comum.

Armadilhas comuns

A primeira armadilha é confiar em convenções universais de magnitude — $d = 0,5$ pode ser “médio” em ciências comportamentais e “enorme” em ensaio clínico de redução de mortalidade. A segunda é reportar apenas $p$ -valor sem tamanho de efeito, prática editorial obsoleta proibida por padrões modernos. A terceira é confundir significância estatística com relevância prática: efeito $d = 0,03$ com $n = 100.000$ produz $p < 0,001$ mas é clinicamente trivial. A quarta é calcular tamanho de efeito a partir de $p$ -valor convertido (sem acesso aos dados brutos) sem reportar essa transformação como aproximação. A quinta é tratar tamanhos de efeito como aditivos: meta-análise simples de médias de $d$ ignora heterogeneidade entre estudos e produz conclusão potencialmente enganosa.