DADOS E ESTATÍSTICA

Regressão linear

Modelo estatístico que estima a relação linear entre uma variável dependente e uma ou mais independentes. Fundação metodológica de boa parte da estatística aplicada e ponto de entrada didático para modelos preditivos mais complexos.

Definição estendida

Regressão linear é o modelo estatístico que estima a relação linear entre uma variável dependente yy e uma ou mais variáveis independentes x1,x2,,xpx_1, x_2, \ldots, x_p. A formulação canônica do modelo simples (uma única preditora) é:

yi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_i

onde β0\beta_0 é o intercepto, β1\beta_1 o coeficiente angular, e ϵi\epsilon_i o erro estocástico, tipicamente assumido como independente, normalmente distribuído com média zero e variância constante. Estimação clássica é feita por mínimos quadrados ordinários (OLS), que minimiza a soma dos quadrados dos resíduos. O conceito remonta a Galton (1886), em estudo sobre estatura hereditária — a palavra “regressão” deriva da observação de que filhos de pais altos tendiam a ser mais próximos da média populacional (“regredir à mediocridade”). A formulação moderna multivariada estende para múltiplas preditoras simultâneas, com avaliação por R2R^2, testes tt para coeficientes, FF para o modelo, e diagnósticos de resíduos.

Quando se aplica

Regressão linear é apropriada quando há razão para esperar relação aproximadamente linear entre preditores e resposta, com resíduos próximos da normalidade e variância constante. É o modelo de partida para qualquer análise quantitativa de relação entre variáveis contínuas, e a base sobre a qual técnicas mais complexas (regressão logística, modelos mistos, regressão regularizada, modelos hierárquicos, SEM) são construídas. Aplicações abrangem prática estatística de praticamente todas as ciências empíricas.

Quando NÃO se aplica

Não se aplica quando a relação é fortemente não-linear sem transformação possível, quando a variável resposta é categórica (regressão logística é a alternativa) ou de contagem (regressão de Poisson ou binomial negativa), quando há autocorrelação severa nos resíduos (séries temporais exigem modelos específicos), ou quando há violação grave de pressupostos sem solução por transformação. Em problemas com muitas preditoras correlacionadas, OLS torna-se instável; ridge, lasso ou elastic net são alternativas. Para inferência causal em dados observacionais, regressão linear sozinha é insuficiente — métodos quasi-experimentais ou DAGs causais são necessários.

Aplicações por área

Saúde e biomédicas: análise de fatores associados a desfechos contínuos (pressão arterial, escore de qualidade de vida, biomarcadores). — Ciências sociais aplicadas: modelos de salário, desempenho escolar, satisfação, com controle por covariáveis. — Engenharias e física: ajuste de modelos físicos lineares aos dados experimentais; calibração de instrumentos. — Economia e finanças: modelos de fatores de risco, regressões de séries temporais (com correção para autocorrelação).

Armadilhas comuns

A primeira armadilha é assumir linearidade sem inspeção visual — gráficos de resíduos versus valores ajustados são essenciais. A segunda é ignorar multicolinearidade entre preditores — variáveis altamente correlacionadas inflacionam erros padrão e tornam coeficientes individuais não-interpretáveis (variance inflation factor, VIF, é o diagnóstico padrão). A terceira é interpretar coeficiente como efeito causal em dados observacionais sem controle por confundidores — risco endemico em ciências sociais. A quarta é confiar em R2R^2 alto sem checar pressupostos: R2R^2 de 0,90 com resíduos heterocedásticos ou padrões sistemáticos é indicador de mau ajuste, não de bom modelo. A quinta é estender extrapolações para fora da faixa observada — modelo linear ajustado em x[10,50]x \in [10, 50] não tem garantia de validade em x=100x = 100.

Última atualização —