机器学习笔记七实战样本不均衡数据解决方法-CFANZ编程社区

信用卡检测案例

机器学习笔记七实战样本不均衡数据解决方法_混淆矩阵

原始数据：0特别多，1特别少——样本不均衡。
要么让0和1一样多，要么让0和1一样少。
机器学习笔记七实战样本不均衡数据解决方法_交叉验证_02

1.下采样

对于数据0和1，要变为同样少——在0里选择和1一样多数据。

from sklearn.preprocessing import StandardScaler
data['normAmount']=StandardScaler().fit_transform(data['Amount'].reshape(-1,1)
data = data.drop(['Time','Amount'],axis=1)
data.head()

机器学习笔记七实战样本不均衡数据解决方法_交叉验证_03

让所有数据的取值范围尽量相同。
- reshape(-1,1) , -1是个占位符。

机器学习笔记七实战样本不均衡数据解决方法_机器学习_04
在正常index随机选择多少个。

under_sample_indices=np.concatenate([fraud_indices,random_normal_indices]);

通过索引定位数据
under_sample_data=data.iloc[under_sample_indices,:]
这样就做好了下采样数据集。

交叉验证

假设现在拿到1笔数据，那首先我们要把数据分成2部分，一部分train（训练），一部分test（测试）。
一般比例是train:test=0.9:0.1
机器学习笔记七实战样本不均衡数据解决方法_数据_05

第1步训练集再分成3份，
机器学习笔记七实战样本不均衡数据解决方法_机器学习_06
1+2训练，3作为验证。

即调参数是在训练数据中拿一部分作验证。

第2步 2+3作模型，3作验证
第3步 1+3作模型，2作验证
把三次的结果相加 / 3作为最终结果。

实际中可以把数据集切成更多份进行交叉验证。

代码示例：

from sklearn.cross_validation import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0);
30%作训练集，random_state复现的结果(?)

print("Number transactions train dataset: " ,len(X_train))

X_train_undersample,X_test_undersample,y_train_undersample,y_test_undersample

建模：
![这里写图片描述](watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveHVuZGg=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

机器学习笔记七实战样本不均衡数据解决方法_数据_07

机器学习笔记七实战样本不均衡数据解决方法_混淆矩阵_08
后一个for是交叉验证。
lr = LogisticRegression(C= c_param,penalty = ‘l1’) 分类器，惩罚力度传进来。
lr.fit(x_train_data.iloc[indices[0],:],y_train_data.iloc[indices[0],:].values.rave1()
训练模型

接下来预测
y_pred_undersample = lr.predict(x_train_data.iloc[indices[1],:].values)
拿测试样本预测
recall_acc= recall_score(y_train_data.iloc[indices[1],:].values,y_pred_undersample)
recall_accs.append(recall_acc)

打印结果：
机器学习笔记七实战样本不均衡数据解决方法_机器学习_09

得到5次recall值，计算平均值：
Mean recall score 0.960846151257
目前是验证级的结果。

C parameter: 0.1的时候
机器学习笔记七实战样本不均衡数据解决方法_机器学习_10
Mean recall score 0.885020…
参数会对结果有非常大的影响。

模型评估标准
精度指标
recall指标=TP/(TP+FN)
TP:
机器学习笔记七实战样本不均衡数据解决方法_交叉验证_11

fold=KFold(
数据分几份。

惩罚项
X[1,1,1,1]
W₁=[1,0,0,0]
W₂=[1/4,1/4,1/4,1/4]
X*W₁^T=1
X*W₂^T=1
对W₁，X后面的三个特征没有作用。
而对W₂，每个特征都会考虑进来。
W₂会更好，综合考虑各个特征。要指定一个惩罚参数，对W₁进行惩罚。
L₂加平方项，W²
L₁加绝对值，|W|。
选择惩罚项比较小的方式。最终目标要把正则化惩罚项加上。