【学习笔记】Lasso Feature Selection的系列知识-CFANZ编程社区

【学习笔记】Lasso Feature Selection的系列知识

玉字璧

阅读 41

2022-02-08

1. 线性回归-Linear Regression

用输入特征的线性组合建模目标变量
$y_{pred}=a_0+a_1x_1+...+a_nx_n$
系数 $a_i$ 要去最小化某个代价函数
均方误差损失函数(MSE)
$\sum_{i=1}^{N_{training}}(y^{(i)}_{real}-y^{(i)}_{pred})^2$
线性回归对共线性(Collinearity)非常敏感，即特征之间的相关性
考虑预测的方差：
$\sigma^2_{y_{pred}}=\sum_ia^2_i\sigma^2_i+\sum_{i\neq j}a_ia_j\rho_{ij}\sigma_i\sigma_j$
$\sigma_i$ ：第 $i$ 个特征的标准差
$\rho_{ij}$ ：是特征i和特征j的皮尔森系数
发现，互相正相关的特征会增加预测的方差，这是线性回归的很大的问题
要避免共线性，就要提前进行特征选择，比如PCA可以得到不相关的特征

2. 岭回归(Ridge regression)

在损失函数里加入 $l_2$ 惩罚项
$\sum_{i=1}^{N_{training}}(y^{(i)}_{real}-y^{(i)}_{pred})^2+\alpha\sum_{j=1}^na_j^2$
$\alpha$ ：超参数
目的是缩小参数值以扔掉没用的特征
只有一个超参数，所以要提前缩放特征，可以使用规范化等技术(数据预处理)。
惩罚项可以减少过拟合的风险，有时岭回归可以使某些特征的系数为0，相当于实施了特征选择

3. Lasso 回归

使用 $l_1$ 惩罚项
$\frac{1}{2N_{training}}\sum_{i=1}^{N_{training}}(y^{(i)}_{real}-y^{(i)}_{pred})^2+\alpha\sum_{j=1}^n|a_j|$
特征的系数越大，损失函数的值就越大
自动特征选择，如果两个特征是线性相关的，它们的同时存在将增加代价函数的值，因此Lasso回归将尝试将不太重要的特征的系数缩小到0，以便选择最佳特征。

相关推荐
爱我中华8898
 特征选择 Feature selection
爱我中华8898 28 0 0
b91bff6ffdb5
 机器学习 基础理论 学习笔记 （8）特征选择（feature selection）（一）
b91bff6ffdb5 156 0 0
程序猿不脱发2
 Openlayers学习笔记——Geometry 和 Feature类
程序猿不脱发2 29 0 0
天悦哥
 简单易学的机器学习算法——lasso
天悦哥 60 0 0
mjjackey
 [翻译论文]A novel embedded min-max approach for feature selection in nonlinear Support Vector Machine cl
mjjackey 61 0 0
钟罗敏
 python lasso的roc
钟罗敏 79 0 0
王远洋
 MongoDB学习笔记系列
王远洋 75 0 0
查拉图斯特拉你和他
 Java学习笔记--异常知识笔记
查拉图斯特拉你和他 83 0 0
心如止水_c736
 Angular Lazy load(延迟加载，惰性加载) 机制和 feature module 的学习笔记
心如止水_c736 74 0 0
快乐小码农
 【机器学习】Feature Engineering and Polynomial Regression
快乐小码农 78 0 0

精彩评论（0）