SHAP values — Glossário Aria Research

Definição estendida

SHAP (SHapley Additive exPlanations) é um framework de interpretabilidade de modelos de aprendizado de máquina que atribui contribuição de cada feature a uma predição individual com base em valores de Shapley — conceito de teoria dos jogos cooperativos formulado por Lloyd Shapley (1953, Nobel de Economia em 2012) para alocar de forma justa o ganho total de uma coalizão entre seus membros. Aplicado a ML, cada feature é “membro” de uma “coalizão” que produz a predição; SHAP calcula a contribuição marginal média da feature considerando todas as ordens possíveis de inclusão. Lundberg e Lee (2017, NeurIPS) unificaram métodos prévios de interpretabilidade local (LIME, DeepLIFT, layer-wise relevance) sob o framework SHAP, demonstrando que valores de Shapley têm propriedades desejáveis (consistência, eficiência, simetria, dummy) que outros métodos violam. Lundberg et al. (2020, Nature Machine Intelligence) apresentaram TreeSHAP, algoritmo polinomial exato para árvores e ensembles (Random Forest, gradient boosting) — antes computacionalmente proibitivo. Aplicações geram visualizações padrão: summary plots (importância global), dependence plots (efeitos não-lineares), force plots (decomposição de predição individual).

Quando se aplica

SHAP aplica-se em interpretabilidade de modelos de ML em contextos onde explicação por predição é exigência regulatória ou ética: crédito (decisões automatizadas exigidas pela Lei de Crédito ao Consumidor americana e similares), saúde (decisões clínicas auxiliadas por ML), justiça criminal (recidiva, fiança), seleção de pessoal (compliance com leis antidiscriminação). É padrão em pesquisa de ML aplicada quando o objetivo é não só prever mas entender o modelo: identificar features dominantes, detectar interações relevantes, validar coerência com conhecimento de domínio. Aplica-se especialmente em modelos black-box (redes neurais, gradient boosting com muitas árvores) onde inspeção direta dos parâmetros é inviável.

Quando NÃO se aplica

Não se aplica como substituto de modelo intrinsecamente interpretável quando este é viável e suficiente: regressão linear ou logística com poucas features oferece interpretação direta sem aproximação. Não se aplica como evidência causal: SHAP atribui contribuição estatística para a predição, não relação causal entre feature e desfecho — confusão frequente. Não se aplica em distribution shift: SHAP calculado em treino pode não refletir comportamento em produção se distribuição mudou. Não substitui validação de fairness: feature com SHAP alto e proxy demográfico pode introduzir viés discriminatório, exigindo análise específica. Em datasets com features altamente correlacionadas, atribuição SHAP entre elas pode ser instável.

Aplicações por área

— Saúde: explicação de risco preditivo em prontuário eletrônico; pesquisa em digital phenotyping. — Finanças: modelos de scoring de crédito com explicabilidade obrigatória regulatoriamente. — ML científico: identificação de features biomarcadoras em estudos genômicos e proteômicos. — Ciências sociais: análise de efeitos heterogêneos em estudos de política pública.

Armadilhas comuns

A primeira armadilha é confundir SHAP com causalidade: feature com alta contribuição SHAP é estatisticamente importante para o modelo, mas relação causal com desfecho real exige design experimental ou inferência causal explícita. A segunda é usar KernelSHAP (aproximação geral) em modelos com TreeSHAP exato disponível: TreeSHAP é polinomial e mais confiável. A terceira é interpretar SHAP de feature correlacionada com outra: contribuição é distribuída entre features correlacionadas de forma sensível à ordem de avaliação; interpretação isolada pode enganar. A quarta é não validar coerência com conhecimento de domínio: SHAP que destoa drasticamente de senso clínico/de negócio pode indicar overfitting, vazamento de dados, ou problema na representação. A quinta é tratar plot de importância global como insight robusto sem checar variabilidade: agregação sobre amostra pode mascarar comportamentos diferentes em subgrupos.