Bootstrap — Glossário Aria Research

Definição estendida

Bootstrap é uma família de métodos de reamostragem com reposição que estima a distribuição amostral de um estimador $\hat{\theta}$ a partir de uma única amostra observada. A ideia é tratar a amostra como uma “população” e simular o processo de amostragem repetidamente. O procedimento básico:

\hat{\theta}^*_b = \hat{\theta}(X^*_b), \quad X^*_b \sim \text{amostragem com reposição de } X, \quad b = 1, \ldots, B

onde $X^*_b$ é a $b$ -ésima amostra bootstrap (mesmo $n$ da amostra original, com reposição) e $\hat{\theta}^*_b$ é o estimador calculado nessa amostra. Tipicamente $B$ é grande (1.000–10.000). A distribuição empírica de $\{\hat{\theta}^*_1, \ldots, \hat{\theta}^*_B\}$ aproxima a distribuição amostral de $\hat{\theta}$ , permitindo construir IC (percentílico, BCa, basic) e testes de hipótese sem suposição paramétrica. Efron (1979) introduziu o método como reformulação do jackknife; Efron e Tibshirani (1993) consolidaram o tratamento técnico canônico em livro. Variantes incluem bootstrap paramétrico (gera amostras de modelo paramétrico ajustado), bootstrap em bloco (séries temporais), e bootstrap residual (regressão).

Quando se aplica

Bootstrap aplica-se quando a distribuição amostral do estimador é difícil de derivar analiticamente — coeficientes de modelos complexos, estatísticas robustas (mediana, quantis), métricas de ML, parâmetros estruturais em SEM, indicadores compostos. É padrão para IC de mediana, IC de razões (cuja distribuição é assimétrica), IC de medidas de fit em SEM. Em ML, bootstrap (e variante específica .632+) é alternativa a CV para estimar performance. Em meta-análise, bootstrap dá IC para medidas-síntese quando suposições paramétricas são duvidosas. Em pequenas amostras, bootstrap percentílico estabilizado por BCa é frequentemente preferível a IC paramétrico clássico.

Quando NÃO se aplica

Não se aplica em séries temporais sem ajuste — reposição independente quebra estrutura de autocorrelação; bootstrap em bloco é a alternativa. Não se aplica em populações com cauda extremamente pesada onde a média não tem variância finita — amostras bootstrap são instáveis. Não se aplica como substituto de aumento de $n$ : bootstrap não cria informação nova; estima precisão da informação que já existe. Em regressão com poucos pontos influentes, bootstrap pode subestimar incerteza — boa prática é examinar diagnóstico de outliers antes de confiar no IC. Não se aplica em parâmetros não-identificados pelo modelo: bootstrap herda os limites de identificabilidade do estimador subjacente.

Aplicações por área

— Saúde e biomédicas: IC bootstrap para razões, riscos relativos ajustados, medidas-síntese em meta-análise. — Econometria: wild bootstrap para inferência em modelos com heterocedasticidade não-modelada. — ML aplicado: bagging (bootstrap aggregating) é a base de Random Forest; bootstrap para incerteza preditiva. — Psicometria: IC bootstrap para coeficientes em SEM e índices de fit (CFI, RMSEA).

Armadilhas comuns

A primeira armadilha é interpretar resultado bootstrap em amostra original viciada — bootstrap estima precisão da estimativa, não corrige viés sistemático. Se amostra é não-representativa, bootstrap herda o viés. A segunda é usar bootstrap percentílico padrão em distribuições assimétricas extremas — BCa (bias-corrected and accelerated) é correção apropriada. A terceira é $B$ pequeno: $B = 100$ é insuficiente para IC; $B \geq 1000$ é mínimo, $B \geq 10.000$ recomendado para precisão de cauda. A quarta é confundir bootstrap com permutação — permutação testa hipótese nula reordenando rótulos; bootstrap estima distribuição amostral. A quinta é usar bootstrap em dados agrupados (cluster sampling, medidas repetidas) sem cluster bootstrap — reamostragem deve respeitar estrutura de dependência ou IC é inválido.