Scikit learn 使用手册中文版
Scikit-learn 使用手册中文版Scikit-learn 使用手册中文版Scikit-learn 使用手册中文版Scikit-learn 使用手册中文版有监督学习广义线性模型11.广义线性模型英文原文以下介绍的方法均是用于求解回归问题,其目标值预计是输入变量的一个线性组合。写成数学语言为:假设!是预测值,则有y(,x)=0+u1x1+.p在本节中’称向量=(1,…,n)为ce-·、%ma%W%nma%为intercept若要将通用的线性模型用于分类问题,可参见 Logistic回归1.11普通最小二乘法Linear使用系数=(1,…,mp)拟合一个线性模型。拟合的目标是要将线性逼近预測值(XU)和数据集中观察到的值(y)两者之差的平方和尽量降到最小。写成数学公式即是要解决以下形式的问题IXw-yl2广义线性模型LinearRegression的fit方法接受数组Ⅹ和y作为输入’将线性模型的乐数ω存在成员变量coef>> from sklearn import linear model>> clf linear_model Linear Regression(>>>cLf.fit([[,9],[1,1],[2,2]],[e,1,2])LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)>>>clf, coefarray([9.5,6.5])需要注意的是,普通最小二乘法的系数预测取决于模型中各个项的独立性。假设各个项相夭’矩阵X的列总体呈现岀线性相关’那么X就会很接近奇异矩阵’其结果就是经过最小二乘得到的预测值会对原始数据中的随机误差高度敏感,从而每次预测都会产生比较大的方差υ这种状况称为重共线性σ例如,在数据未经实验设计就进行收集时就会发生重共线性线性回归的例子1.1.11普通最小二乘法的复杂度此方法使用X的奇异值分解来求解最小二乘。如果X是?×p矩阵,则算法的复杂度为O(mp2),假设n>p。广义线性模型1.12岭回归岭回归( Ridge regression)引入了一种对系数大小进行惩罚的措施,来解决普通最小二乘可能遇到的某些问题。岭回归最小化带有惩罚项的残差平方和nInX12+a|这里’α>0是一个复杂的参数,用以控制系数的缩减量。α值越大’系数缩减得越多,因而会对共线性更加鲁棒Ridge coefficients as a function of the regularization200100-10010210310410101010alpha和其它线性模型类似’Rige将数组X和y作为fit方法的参数’将线性模型的系薮ω存在成员变量coef_中:>> from sklearn import linear_model>> clf linear_model Ridge (alpha =.5)>>>c1f.fit([[e,e],[e;0],[1,1]],[Ridge(alpha=0. 5, copy_X=True, fit_ intercept=True, max iter=Nonenormalize=False, random_state=None solver=auto,tol=o 001)>>>clf, coefarray([.34545455,0.34545455])>> clf intercept6.13636.例子广义线性模型·岭回归系数图像:一种正则化方法使用稀疏特征进行文本文档分类岭回归的时间复杂度岭回归的复杂度与普通最小二乘法一样使用广义交又验证设置正则化参数Ridged使用内置的交叉验证方法选择参数α’进而实现了岭回归。该对象和 Grid SearchCv的原理类似,只不过 RidgeCV默认使用广义交又验证方法(留一交叉验证的一种高效形式):>> from sklearn import linear model>> clf linear_model. Ridgecv(alphas=[o 1, 1.0, 10.01)1f.fit([[e;0],[,0],[1,1]],[0,.1,1])Ridgecv(alphas=[o 1, 1.0, 10.0, CVENone, fit_intercept=True, scoring=None,normalize=False)>>>clf. alpha6.1参考文献“ Notes on Regularized Least squares", Rifkin& Lippert(技术报告,课程胶片)1.1.3 LassoLas so是一种预测稀疏系数的线性模型。在某些情况下, Lasso非常有用·因为其倾向于选择拥有更少参数数量的模型’从而有效减少了最终解决方案所依赖的变量个数。这样的特性使得Las和它的变种成为了压缩感知( compressed sensing)这一领域的基石。在特定情况下’它可以恢复非零权重的确切集合( it can recover the exact set of non-zero weights)(参Compressive sensing: tomography reconstruction with L1 prior(Lasso))用数学语言讲’ Lasso是一个增加了!1正则项的线性模型。需要优化的目标函数为minI Xw-y2+allwllsimples因此,LaSS0是要将带有Q11这一项的最小二乘误差降到最小。这里Q是一个常数ll1是参数向量的1范数Lasso类的实现使用了坐标下降算法来拟合系数。 Least Angle Regression使用了另一种实现方法广义线性模型>> from sklearn import linear_modellf linear_model. Lasso(alpha =0. 1)>>>c1Lf,fit([[e,0],[1,1],[,1])Lasso (alpha=o 1, copy_=True, fit_intercept=True, max_iter=1000,normalize=False, positive=False, precompute=False, random_state=Noneselection= cyclic,tol=o. 0001, warm_start=False)>>>c1f, predict([[1,1]])array([ 0.8])对于一些庶层的任务来说’函数las°path也很有效。该函数沿所有可能值的全部路径计算系数例子Lasso and Elastic Net for Sparse SignalsCompressive sensing: tomography reconstruction with L1 prior(Lasso)注释使用 Lasso进行特征选择∶由于 Lasso回归可以给岀稀疏糢型·因此该方法可以用于特征选择。参见“基于L1的特征选择”了解更多细节随杌化稀疏∶对于特征选择或稀疏性恢复’可以考虑使用随杋化稀疏模型1.13.1.设定正则化参数参数 alpha用来控制所得到模型系数的系数程度1.13.1.1.使用交叉验证使用 scikit- learn提供的一些类,可以通过交叉验证的方式设置 Lasso的 alpha变量。这些类包括 Las sock和 Lassolar scv。其中 Lassolar scv基于下面介绍的最小角回归算法。对于有很多共线性回归项的高维数据集来说’ Lassocv更为适用。但是, Lassolarscv的优势在于,它可以找出更多 alpha的相关值·而且如果祥本数量显著小于变量数量’它比Lassocv更快。广义线性模型¥5n square error on each fald: coordinate descent (train time: 0.35s)Average across the foldsa pha: CV estimate36003400…1……………b0030002800260024000.0C,510152.02,5log(alpha)3800 Mean square error on each fold: Lars(train time: 0. 17sAverage across the foldsd phd CV36003400E∷3200,+ma=+,9“x300028002600;:∵a面a..:1424000.00.51.52.03.5-logialpha)广义线性模型1.1.31.2基于信息准则的模型选择作为另一种可选方案, Lassolarsic使用赤池信息量准则(AC)和贝叶斯信息量准则(BC)进行预测。在使用k折交叉验证方法时,该预测器只计算一遍正则化路径来寻找 alpha的最优值’而不像其它预测其那样计算k+1遍。因此这种方法所需的计算资源更少。然而’这种准则需要对最终结果的自由度有一个正确预测。它是由大量样本(渐进结果)得来,而且假设模型是正确的(乜就是说’数据就是由这个模型产生的)。如果所解冋题 badlyconditioned(特征数多于样本数),那么这种方法也容另失败。例子· Lasso模型选择:交又验证/A|C/B|C114.弹性网弹性网(ε asticNet)同时使用L1和L2正则化项来训练线性回归模型。使用这样的组合可以得到一个稀疏模型·乜就是像Laso那祥只有少量权重是非零的’冋时这祥的模型还能够保持Ridge的正则化特性。我们佼用参数11 ratio来控制L1和L2的凸组合。当多个特征互相相关时·弹性网就可以派上用场σ面对这样的情况· Lasso可能会随机选择·个特征,而弹性网会两个都选在 Lasso和岭回归中选择一个平衡点的应用优势在于’它允许弹性网在轮转情况( rotation)下继承岭回归的某些稳定性。其实质是最小化如下目标函数IninXa112+opl|l1+samples
用户评论