论文解读：《XGB4mcPred:基于极值梯度增强算法和DNA序列信息的多物种DNA n4 -甲基胞嘧啶位点识别》-CFANZ编程社区

期刊名：《Algorithms》
JCR分区：Q2
代码地址：https://github.com/lyn-007/XGB4mcPred
文章地址：https://www.mdpi.com/1999-4893/14/10/283

论文发布日期:2021年9月29日

一、摘要

背景：DNA n4 -甲基胞嘧啶(4mC)在生物学功能中发挥着重要作用，是一种特殊的表观遗传机制。

方法：首先，我们使用One-Hot编码在原始4mC位点序列的相邻和间隔的核苷酸、二核苷酸和三核苷酸上作为特征向量。

然后，利用XGBoost算法预先训练的特征向量的重要值作为阈值，过滤冗余特征，从而显著提高了构建的XGB4mcPred预测器识别4mC站点的识别精度。

结果：显著提高了构建的XGB4mcPred预测器识别4mC站点的识别精度。在6个多物种数据集中， 4mC位点和非4mC位点的核苷酸序列具有明显的偏好，

结论：预测器XGB4mcPred显著优于其他最先进的预测器，与其他最先进的预测器相比，得到了不同程度的改进。

二、结果

如表3所示,XGB4mcPred预测优于之前的最先进的机器学习四个数据集上的预测因子A. thaliana, C. elegans, E. coli, D. melanogaster. Especially on the C. elegans，独立测试集的ACC值首次突破了90%的值。与目前最先进的机器学习预测器相比，D. melanogaster数据集的准确性也达到了91.8%，提高了1.1~3.2%。在E. coli,数据集上，与之前最先进的机器学习预测器相比，我们的预测器显著提高了3.7~7.8%。对于A. thaliana数据集，我们也得到了轻微的改进。然而，在G. subterruneus和G. pickeringii数据集上，该模型的泛化略低于Meta-4mCpred预测器。

将XGB4mcPred预测器应用于6个独立的数据集，计算出4个指标。详细的对比结果见表4

三、数据集和方法

数据集:(E. coli),(G. pickeringii),(G. subterraneus),(C. elegans),(A. thaliana),(D. melanogaster).

数据集序列：776、1138、1852、3108、3956、3538。

序列长度：41

得到4mc个数：134、200、350、750、1250和1000。

方法：one hot 编码、XGBoost

One-Hot编码直接对原始的DNA序列进行编码，从而保留了最原始、最简单的序列信息。它主要使用N位状态寄存器对N个状态进行编码。每个状态都有其独立的寄存器位，并且在任何时候只有一个位有效。对邻近的k-核苷酸进行One-Hot编码。然后对间隔的gapk核苷酸残基之间的k-核苷酸进行One-Hot编码，获得更丰富的DNA序列信息来表示原始DNA序列，其中gapk表示间隔的个数。

XGBoost：两步优化。本研究中用于优化的超参数包括:max_depth、gamma、learning_rate、subsample、colsample_bytree、colsample_bylevel、reg_alpha和reg_lambda。对这些参数值的所有可能的组合进行多次实验，并将使模型性能最好的参数值作为优化值。考虑到这些数据集的大小和特征维度，本研究XGBoost分类器的超参数设置范围如表1所示。

四、结论

1、利用KNN、SVM、RF和XGBoost分类器对确定的最优特征子集的超参数进行训练和调整，最终确定XGBoost训练模型为最优分类器；

2、采取串行融合策略；

3、采用最优预测器XGB4mcPred进行10次交叉验证和独立测试评估。

web服务器：http://www.xwanglab.com/XGB4mcPred

论文解读：《XGB4mcPred:基于极值梯度增强算法和DNA序列信息的多物种DNA n4 -甲基胞嘧啶位点识别》

一、摘要

二、结果

三、数据集和方法

四、结论

论文解读：DNA 5-甲基胞嘧啶检测和甲基化分相 PacBio 循环共识测序