在统计分析中,变量选择是一个重要问题。在进行统计建模的初期,研究人员为了减小系统误差,会尽量将所有观测到的变量加入模型中,但是,由于大量变量的引入,模型的解释变得很困难,模型也很复杂,其中的很多变量也许是和响应变量无关的,或者对响应变量影响很小,可以从模型中剔除。将大量变量中对响应变量影响效果显著的变量选择出来,这就是变量选择。 简单起见,下面只以一般线性模型为例进行介绍,其他模型下可以相应推广。令 \[y=x^T\beta+\epsilon,\] 其中$y$为响应变量,$x$为$p$维自变量,本文假设其每个分量取连续值。$x^T$表示$x$的转置,$\beta$为未知参数,$\epsilon […]