0

点赞

收藏

分享

华为LAB实验室4-朴素贝叶斯

朱悟能_9ad4 2023-02-27 阅读 66

标签: 朴素贝叶斯乾颐堂华为 LAB实验室数据可视化人工智能

各位好，我是乾颐堂大堂子。领取完整实战指南可以私信我，关键词：实战指南

通过 jieba 文字分词库对邮件数据集的垃圾邮件和进行文本处理，提取特征。然后调用 sklearn 机器学习库中的朴素贝叶斯算法训练模型，最后推理测试集中邮件是否为垃圾邮件。

华为LAB实验室4-朴素贝叶斯_LAB实验室

步骤 1 引入相关依赖的包

华为LAB实验室4-朴素贝叶斯_乾颐堂_02

步骤 2 构建文本处理函数

删除其中的干扰字符，例如【】*。，等等，然后分词，剩下的词汇认为是有效词汇。

华为LAB实验室4-朴素贝叶斯_乾颐堂_03

华为LAB实验室4-朴素贝叶斯_朴素贝叶斯_04

步骤3构建文本读取函数

获取文件中所有词,进行文本处理

华为LAB实验室4-朴素贝叶斯_朴素贝叶斯_05

步骤4构建数据集

统计全部训练集中每个有效词汇的出现次数，截取出现次数最多的前500个根据预处理后的垃圾邮件和非垃圾邮件内容生成特征向量，统计得到的500个词语分别在该邮件中的出现概率

华为LAB实验室4-朴素贝叶斯_朴素贝叶斯_06

华为LAB实验室4-朴素贝叶斯_LAB实验室_07

得到特征向量和已知邮件分类创建并训练朴素贝叶斯模型。

华为LAB实验室4-朴素贝叶斯_LAB实验室_08

步骤6模型测试

读取测试邮件，对邮件文本进行预处理，提取特征向量。使用训练好的模型，根据提取的特征向量对邮件进行分类

华为LAB实验室4-朴素贝叶斯_乾颐堂_09

华为LAB实验室4-朴素贝叶斯_LAB实验室_10

华为LAB实验室4-朴素贝叶斯_华为_11

0 条评论

关注