Definição estendida
Bootstrap é uma família de métodos de reamostragem com reposição que estima a distribuição amostral de um estimador a partir de uma única amostra observada. A ideia é tratar a amostra como uma “população” e simular o processo de amostragem repetidamente. O procedimento básico:
onde é a -ésima amostra bootstrap (mesmo da amostra original, com reposição) e é o estimador calculado nessa amostra. Tipicamente é grande (1.000–10.000). A distribuição empírica de aproxima a distribuição amostral de , permitindo construir IC (percentílico, BCa, basic) e testes de hipótese sem suposição paramétrica. Efron (1979) introduziu o método como reformulação do jackknife; Efron e Tibshirani (1993) consolidaram o tratamento técnico canônico em livro. Variantes incluem bootstrap paramétrico (gera amostras de modelo paramétrico ajustado), bootstrap em bloco (séries temporais), e bootstrap residual (regressão).
Quando se aplica
Bootstrap aplica-se quando a distribuição amostral do estimador é difícil de derivar analiticamente — coeficientes de modelos complexos, estatísticas robustas (mediana, quantis), métricas de ML, parâmetros estruturais em SEM, indicadores compostos. É padrão para IC de mediana, IC de razões (cuja distribuição é assimétrica), IC de medidas de fit em SEM. Em ML, bootstrap (e variante específica .632+) é alternativa a CV para estimar performance. Em meta-análise, bootstrap dá IC para medidas-síntese quando suposições paramétricas são duvidosas. Em pequenas amostras, bootstrap percentílico estabilizado por BCa é frequentemente preferível a IC paramétrico clássico.
Quando NÃO se aplica
Não se aplica em séries temporais sem ajuste — reposição independente quebra estrutura de autocorrelação; bootstrap em bloco é a alternativa. Não se aplica em populações com cauda extremamente pesada onde a média não tem variância finita — amostras bootstrap são instáveis. Não se aplica como substituto de aumento de : bootstrap não cria informação nova; estima precisão da informação que já existe. Em regressão com poucos pontos influentes, bootstrap pode subestimar incerteza — boa prática é examinar diagnóstico de outliers antes de confiar no IC. Não se aplica em parâmetros não-identificados pelo modelo: bootstrap herda os limites de identificabilidade do estimador subjacente.
Aplicações por área
— Saúde e biomédicas: IC bootstrap para razões, riscos relativos ajustados, medidas-síntese em meta-análise. — Econometria: wild bootstrap para inferência em modelos com heterocedasticidade não-modelada. — ML aplicado: bagging (bootstrap aggregating) é a base de Random Forest; bootstrap para incerteza preditiva. — Psicometria: IC bootstrap para coeficientes em SEM e índices de fit (CFI, RMSEA).
Armadilhas comuns
A primeira armadilha é interpretar resultado bootstrap em amostra original viciada — bootstrap estima precisão da estimativa, não corrige viés sistemático. Se amostra é não-representativa, bootstrap herda o viés. A segunda é usar bootstrap percentílico padrão em distribuições assimétricas extremas — BCa (bias-corrected and accelerated) é correção apropriada. A terceira é pequeno: é insuficiente para IC; é mínimo, recomendado para precisão de cauda. A quarta é confundir bootstrap com permutação — permutação testa hipótese nula reordenando rótulos; bootstrap estima distribuição amostral. A quinta é usar bootstrap em dados agrupados (cluster sampling, medidas repetidas) sem cluster bootstrap — reamostragem deve respeitar estrutura de dependência ou IC é inválido.