DADOS E ESTATÍSTICA

Regressão logística

Modelo estatístico para variável dependente categórica que estima probabilidade de pertencer a uma categoria como função logística de preditores. Variantes: binária, multinomial e ordinal. Cox (1958) formalizou para resposta binária.

Definição estendida

Regressão logística é um modelo estatístico para variável dependente categórica que estima a probabilidade de pertencer a uma categoria como função logística de preditores. Para resposta binária (Y{0,1}Y \in \{0, 1\}), a forma canônica é:

log(p1p)=β0+β1x1+β2x2++βkxk\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k

onde p=P(Y=1X)p = P(Y=1 \mid X) e log(p1p)\log\left(\frac{p}{1-p}\right) é o logit (log-odds). Os coeficientes βi\beta_i são interpretados como mudança no log-odds por unidade de aumento em xix_i, ou — após exponenciação — como razão de chances (eβie^{\beta_i} = razão de chances). Cox (1958, JRSS B) formalizou a regressão logística no framework moderno; Hosmer, Lemeshow e Sturdivant (2013, Applied Logistic Regression) consolidaram a referência técnica padrão. Variantes incluem multinomial (mais de 2 categorias sem ordem natural — softmax), ordinal (categorias ordenadas — proportional odds) e condicional (estudos caso-controle pareados).

Quando se aplica

Regressão logística aplica-se em qualquer problema com desfecho categórico que precisa ser modelado em função de preditores contínuos ou categóricos: presença/ausência de doença em epidemiologia, sucesso/fracasso de intervenção, voto/abstenção, default/não-default em crédito, classificação binária em ML clássico. É a técnica padrão para análise de associação em estudos caso-controle (epidemiologia analítica) e pareando bem com IC de razão de chances. Em ML, regressão logística serve como baseline forte antes de modelos mais complexos (random forest, gradient boosting, redes neurais) — frequentemente difícil de superar em problemas tabulares com features bem-engenheiradas.

Quando NÃO se aplica

Não se aplica em variável dependente contínua — usar regressão linear. Não se aplica em variável ordinal com mais de 4-5 categorias se distância entre categorias é informativa — modelos ordinais ou linear pode ser mais apropriado. Não se aplica em desfechos com extrema imbalance (<5%<5\% de uma classe) sem ajustes (firth correction, downsampling, weighting). Não se aplica em dados com forte estrutura de dependência (medidas repetidas, agrupamento) sem extensões: modelos mistos (GLMM), GEE, ou modelos hierárquicos são apropriados. Em ML moderno com features de alta dimensão e relações não-lineares, regressão logística simples é frequentemente sub-ótima.

Aplicações por área

Epidemiologia: padrão para razão de chances em estudos caso-controle; ajuste para confundidores via inclusão de covariáveis. — Finanças: scoring de crédito, default prediction, fraude — regressão logística é baseline regulatório em muitos contextos. — Marketing: modelagem de churn, conversão, resposta a campanha — interpretabilidade do coeficiente é diferencial. — ML aplicado: baseline em problemas de classificação tabular antes de modelos não-lineares.

Armadilhas comuns

A primeira armadilha é interpretar βi\beta_i como efeito direto sobre pp — é efeito sobre logit; mudança em pp depende do valor de partida (curva sigmoide é não-linear). A segunda é confundir razão de chances (eβe^{\beta}) com risco relativo — coincidem quando o desfecho é raro (<10%<10\%) mas divergem em desfechos comuns; reportar como risco relativo quando é razão de chances é erro frequente em epidemiologia. A terceira é não checar suposições: linearidade do logit em preditores contínuos, ausência de multicolinearidade severa (VIF), independência das observações. A quarta é incluir variáveis com base apenas em p<0,05p < 0,05 univariado: inclusão deve seguir framework teórico, não fishing. A quinta é interpretar pseudo-R2R^2 (Nagelkerke, McFadden) como o R2R^2 da regressão linear — não são equivalentes; valores típicos de Nagelkerke estão entre 0,1 e 0,4 mesmo em modelos bons.

Última atualização —