主页 > 数学 > 变量选择方法综述(二)

变量选择方法综述(二)

归类于 数学

前文介绍了变量选择方法初期的发展情况。近几十年,新的方法逐渐发展起来。初期的变量选择方法需要首先选出显著变量(即对响应变量影响显著的变量),然后再估计对应的回归系数。一些新的变量选择方法,通过对回归系数添加惩罚,在实现变量选择的同时,也可以进行估计。下面主要介绍Lasso,Adaptive Lasso(aLasso)和SCAD方法。首先提出先知估计(Oracle estimation)的概念,即模型的显著变量在预先知道的情况下给出的模型的估计,这在实际中是不可能的,所以叫做先知估计,但是可以证明下面的aLasso和SCAD方法的结果与先知估计一样好,即它们具有先知性质(Oracle property),见Jianqing, Fan, Runze, Li. Variable selection via nonconcave penalized likelihood and its oracle properties。
1) Lasso
1996年,Robert Tibshirani提出了Lasso(Least Absolute Shringkage and Selection Operator),见(Regression shringkage and selection via the Lasso, Robert Tibshirani)。对于模型$y=x^T\beta+\epsilon$,Lasso估计定义为
\[\hat{\beta}=\mathop{arg}min\{\sum\limits_{i=1}^n(y_i-x_i^T\beta)^2\},\ subject\ to \sum\limits_{j}|\beta_j|\le{t}(*).\]
这里$t\ge{0}$为调整参数。若$\hat{\beta}^0$为完整的最小二乘估计,$t_0=\sum\limits_{j}\hat{\beta}_j^0$,则当$t0$,定义权向量$\hat{w}=1/|\hat{\beta}|^{\gamma}$。
通过合适的变换,aLasso方法也可以采用类似于Lasso的方法求解,即利用LAR方法求解。
3) SCAD
由于Lasso方法不具有先知性质,Jianqing, Fan和Runze, Li提出了SCAD方法(见本文一开始提到的文章)。在Fan和Li的文章中,他们研究了一个“好”的惩罚函数应该具有的性质,即由该惩罚函数导出的估计应该具有无偏性,稀疏性和连续性。基于这些性质,作者提出了一个基于二次样条函数的惩罚函数,即SCAD(Smoothly Clipped Absolute Deviation)。其定义为
\[p_{\lambda}^{‘}(\theta)=\lambda\{I(\theta\le{\lambda})+\frac{(a\lambda-\theta)_{+}}{(a-1)\lambda}I(\theta>\lambda),\}\]
其中$a>2$且$\theta>0$,为调整参数。Fan和Li还提出了一个基于局部二次近似的求解惩罚最小二乘的算法,其基本思想如下,当$\beta_j\ne{0}$时,
\[[p_{\lambda}(|\beta_j|)]^{‘}=p_{\lambda}^{‘}(|\beta_j|)sgn(\beta_j)\approx{\{p_{\lambda}^{‘}(|\beta_{j0}|)/|\beta_{j0}|\}\beta_j},\]
即对于$\beta_j\approx{\beta_{j0}}$,
\[p_{\lambda}(|\beta_j|)\approx{p_{\lambda}^{‘}(|\beta_{j0}|)+\frac{1}{2}\{p_{\lambda}^{‘}(|\beta_{j0}|)/|\beta_{j0}|\}(\beta_j^2-\beta_{j0}^2)},\]
用该近似代替惩罚最小二乘中的惩罚函数,即可迭代求解出惩罚最小二乘估计。调整参数的选择可以采用交叉验证方法(CV)或广义交叉验证方法(GCV),具体参考Fan和Li的文章。

归类于 数学

评论已经关闭

顶部