主页 > 数学 > 变量选择方法综述(一)

变量选择方法综述(一)

归类于 数学

在统计分析中,变量选择是一个重要问题。在进行统计建模的初期,研究人员为了减小系统误差,会尽量将所有观测到的变量加入模型中,但是,由于大量变量的引入,模型的解释变得很困难,模型也很复杂,其中的很多变量也许是和响应变量无关的,或者对响应变量影响很小,可以从模型中剔除。将大量变量中对响应变量影响效果显著的变量选择出来,这就是变量选择。
简单起见,下面只以一般线性模型为例进行介绍,其他模型下可以相应推广。令
\[y=x^T\beta+\epsilon,\]
其中$y$为响应变量,$x$为$p$维自变量,本文假设其每个分量取连续值。$x^T$表示$x$的转置,$\beta$为未知参数,$\epsilon$为随机误差。当$p$很大时,变量选择将会选出自变量的一个子集,用这个子集建立模型,使得模型的误差与使用所有可观测变量相差不大,但是模型更加简单,解释能力更好。一个实践中可行的方法是,利用最小二乘法,求得$\beta$的估计值$\hat{\beta}$,再根据估计值确定一个阈值$\tau$,使得$\hat{\beta}$的分量中,绝对值大于等于$\tau$所对应的变量得以保留,而绝对值小于$\tau$所对应的变量被剔除。这个方法比较简单,但也有一些问题。其一就是它简单的将回归系数在一个阈值$\tau$处进行区分,如何取$\tau$是非常主观的;其二是这么选择,可能会将回归系数绝对值比较小,但是对模型的解释能力更强的变量剔除出去,这是实践中不期望的。
初期的变量选择方法包含向前选择(Forward Selection),向后删除(Backward Deletion),向前选择向后删除(Forward Selection with Backward Deletion),最优子集选择(Best subset Selection),逐步回归选择(Stepwise Regression Selection),最小角回归(Least Angle Regression)等。下面简要介绍一下。
1) 向前选择过程如下:首先选择与响应变量相关性最大的变量,建立回归模型得到了模型误差,再从剩下的变量里选择与模型误差相关性最大的变量,再建立模型得到模型误差,一直这样进行下去直到变量的个数达到要求。
2) 向后删除选择过程如下:首先建立一个包含所有变量的模型,得到模型误差,然后剔除与模型误差相关性最小的变量,再重新建立模型,得到模型误差,再剔除与模型误差相关性最小的变量。向前选择向后删除方法结合了向前选择和向后删除二者,在每次向前选择添加一个变量后,会根据条件执行向后删除。向前选择和向后删除方法有可能会将相关性比较高的变量组合中解释能力更好的变量排除在最终模型之外。
3) 最优子集选择则考虑对变量集合的所有子集进行建模,并挑选其中的最好的。由于$p$个变量的非空子集数为$2^p-1$,当$p$比较大时,这个数是非常大的,不可能对所有子集建模。
4) 逐步回归选择类似与向前选择,不同的是,向前选择在对模型加入一个新变量后,重新建立模型时,对模型中的各变量采用最小二乘法求解回归系数,即新变量的系数是从零(即为加入模型中)突增到一个非零值,而逐步回归则在求解时,设立一个极小的步长,逐步增大回归系数,这样可以避免因为前面提到的变量组合之间相关性比较大而未能将解释能力更强的变量加入模型中。
5) 最小角回归(Least Angle Regression,LAR)是另一种类似于向前选择的变量选择方法。前面提到了向前选择和逐步回归选择的不同,这二者的缺点是前者太“冒进”,后者太“保守”,向前选择每次尽可能提高回归系数(最小二乘),步子迈的太大了,很可能将未进入模型的有较强解释能力的变量排挤出去,而逐步回归选择每次前进一小步,每一步都是需要重新求解模型的,这样非常消耗时间和资源。最小角回归通过选择一个合适的方向,每次前进一个合适的步长,既不太“冒进”,也不太“保守”,因此更有效。具体来说就是:第一步选择和向前选择一样,找到与响应变量相关性最大的变量$x_1$,并沿这个变量的方向前进到一个合适位置(即按$x_1$与响应变量相关系数符号增大$x_1$的回归系数),使得当前的残差向量分别与$x_1$和未选择的某个变量$x_2$的相关性相等,此时,调整前进方向为向量$x_1$和$x_2$的夹角平分方向,继续前进,直到有另一个未选择的变量$x_3$与当前残差的相关系数与$x_1$和$x_2$与当前残差的相关系数相等时,再调整方向,一直这样进行下去,直到找到足够的变量为止。
LAR的相关文献见:Bradley Efron, Trevor Hastie, Iain Johnstone, Robert Tibshirani. Least Angle Regression. The Annals of Statistics. 2004, Vol. 32, No. 2, 407-499. 文中详细的介绍了LAR的实现,特别是介绍了LAR与逐步回归及后面将要介绍的LASSO方法之间的关联,这种关联使得LAR用于求解LASSO的解十分有用。

注:本文提到的方法在一些软件中如R等,已有相应的实现,用户可以将数据传入,简单的函数调用即可看到结果。

后面将会介绍近十多年发展起来的新的变量选择方法,LASSO,Adaptive LASSO,SCAD等是其中的代表。

归类于 数学

评论已经关闭

顶部