Un problema relativamente común en investigación aplicada (especialmente en ciencias sociales e investigación de mercados)  es ajustar modelos de regresión múltiple en forma exploratoria. Este problema típicamente se presenta cuando necesitamos construir un modelo para explicar una variable dependiente a partir de varias variables independientes potenciales (predictores) pero no contamos con una teoría una teoría sustantiva que nos permita seleccionar a priori un subconjunto de predictores para evaluar el modelo.

La regresión paso a paso (“stepwise” en inglés; a veces también llamada regresión “por pasos“) es un método muy popular para enfrentar este tipo de situaciones. Básicamente, se trata de permitir que el programa de análisis estadístico (SPSS, por ejemplo), seleccione aquel conjunto de predictores que optimizan el ajuste del modelo y/o la proporción de varianza explicada de la variable dependiente (R cuadrado).

Por ejemplo, la siguiente es una captura de pantalla del procedimiento, tal como es ofrecido por SPSS 19:

 

Pese a su popularidad los métodos stepwise (en regresión lineal, regresión logística y análisis discriminante, por ejemplo) son, probablemente, una de las peores ideas en el campo del análisis de datos. Sin entrar en detalles (ver referencias más abajo), se trata de un procedimiento poco confiable: capitaliza el error aleatorio, produce tests de significancia equivocados y estimada R cuadrados sesgados (Copas, 1983; Derksen & Keselman, 1992; Leigh, 1988; Thompson, 1995). Un resumen de los argumentos en contra de los métodos stepwise puede consultarse en Thompson (2001), que no duda en utilizar calificativos como: “bad, evil, rotten, worthless, and wrong“.

Para aprender más sobre el tema, una buena idea es goglear “stepwise regression“. Una página de discusión de STATA también ofrece una síntesis de las críticas que se han hecho a estos métodos:

http://www.stata.com/support/faqs/stat/stepwise.html

Referencias

Copas, J. B. (1983). Regression, prediction and shrinkage. Journal of the Royal Statistical Society Series B-Methodological, 45(3), 311-354.

Derksen, S., & Keselman, H. J. (1992). Backward, forward and stepwise automated subset-selection algorithms – frequency of obtaining authentic and noise variables. British Journal of Mathematical & Statistical Psychology, 45, 265-282.

Leigh, J. P. (1988). Assessing the importance of an independent variable in multiple-regression: Is stepwise unwise? Journal of Clinical Epidemiology, 41(7), 669-677.

Thompson, B. (1995). Stepwise Regression and Stepwise Discriminant-Analysis Need Not Apply Here – A Guidelines Editorial. Educational and Psychological Measurement, 55(4), 525-534.

Thompson, B. (2001). Significance, effect sizes, stepwise methods, and other issues: Strong arguments move the field. Journal of Experimental Education, 70(1), 80-93