DADOS E ESTATÍSTICA

Dados ausentes e imputação múltipla

Tratamento de valores faltantes em dados de pesquisa. Mecanismos: MCAR, MAR, MNAR. Imputação múltipla (Rubin, 1987) gera m datasets completos via amostragem da distribuição posterior, combinando estimativas via regras de Rubin para inferência válida.

Definição estendida

Tratamento de dados ausentes em pesquisa quantitativa requer primeiro classificar o mecanismo de ausência, distinção formalizada por Rubin (1976): MCAR (Missing Completely At Random) — probabilidade de ausência independente de qualquer variável observada ou não-observada; MAR (Missing At Random) — probabilidade de ausência depende de variáveis observadas, não de não-observadas; MNAR (Missing Not At Random) — probabilidade de ausência depende da própria variável faltante (e.g., pacientes que abandonam estudo por sentirem-se piores). Estratégias clássicas têm limites: análise de casos completos (listwise deletion) descarta informação e produz viés sob MAR; imputação simples (média, último valor) subestima incerteza. Imputação múltipla (Multiple Imputation, MI), formalizada por Rubin (1987, Multiple Imputation for Nonresponse in Surveys, Wiley), gera mm datasets completos amostrando da distribuição posterior do dado ausente condicional ao observado; análise é repetida mm vezes; resultados são combinados via regras de Rubin:

Qˉ=1ml=1mQ^l,T=Uˉ+(1+1m)B\bar{Q} = \frac{1}{m}\sum_{l=1}^m \hat{Q}_l, \quad T = \bar{U} + \left(1 + \frac{1}{m}\right) B

onde Qˉ\bar{Q} é a estimativa pontual combinada, Uˉ\bar{U} a média das variâncias intra-imputação, BB a variância entre imputações, e TT a variância total (que reflete adequadamente a incerteza por dados faltantes). van Buuren (2018, Flexible Imputation of Missing Data, 2ª ed., Chapman & Hall/CRC) consolidou a referência prática moderna; o pacote mice em R é implementação dominante.

Quando se aplica

Imputação múltipla aplica-se em estudos com proporção não-trivial de dados faltantes (geralmente > 5%) sob mecanismo MAR plausível. Aplica-se em ensaios clínicos com perda de seguimento, surveys com não-resposta a itens específicos, dados administrativos com campos não-preenchidos. Aplica-se especialmente quando XfaltanteX_{\text{faltante}} correlaciona com variáveis observadas — mice explora essa estrutura. Aplica-se em meta-análises onde dados primários têm faltas substantivas. CONSORT exige reportar mecanismo de tratamento de faltas em ensaios; STROBE em observacionais; ICMJE valoriza transparência. Imputação simples (média, last observation carried forward) é aceita apenas em análises de sensibilidade complementares, não como análise primária moderna.

Quando NÃO se aplica

Não se aplica em mecanismo MNAR sem modelagem específica: imputação múltipla padrão assume MAR; sob MNAR, pattern-mixture models, selection models, ou análise de sensibilidade são alternativas. Não se aplica como substituto de boa coleta de dados: prevenir perda é melhor que imputar. Não se aplica em datasets com proporção extrema de faltas (>50%) onde estrutura observada é insuficiente para informar imputação. Não se aplica de forma cega em variáveis com lógica restrita (e.g., variáveis derivadas, indicadores condicionais): imputação deve respeitar restrições do dado. Não substitui análise de sensibilidade quando MAR é suposição duvidosa: reportar análise primária com MI + análises alternativas com diferentes mecanismos é prática moderna.

Aplicações por área

Saúde: ensaios clínicos com perda de seguimento; padrão FDA exige reporting transparente. — Pesquisa em surveys: não-resposta a itens; PEW, Gallup usam MI rotineiramente. — Economia e ciências sociais: dados de painel com missingness não-aleatório frequente. — Pesquisa epidemiológica: prontuários eletrônicos com campos faltantes; bases de claims.

Armadilhas comuns

A primeira armadilha é assumir MCAR sem testar: testes de Little (1988) e padrões de missingness ajudam, mas confirmação requer conhecimento de domínio. A segunda é usar imputação simples (média, mediana, LOCF) como análise primária: subestima erro-padrão, infla taxa de falsos positivos. A terceira é mm pequeno: m=5m = 5 era recomendação clássica, mas m=20m = 20 ou mais é prática moderna para precisão de IC, especialmente com faltas substantivas. A quarta é não incluir variável-desfecho na imputação: imputar covariáveis sem incluir desfecho introduz viés sistemático para nulo. A quinta é imputar variáveis criadas (interações, agregados) em vez das variáveis brutas: imputação deve ocorrer no nível mais primitivo; transformações vêm depois.

Última atualização —