R语言之朴素贝叶斯方法实现对垃圾邮件的分类
引言
朴素贝叶斯分类是机器学习分类方法中的经典,借助邮件数据中的文本感受一下朴素贝叶斯分类的效果以及后续的改进!
数据介绍
一共有6000多个垃圾邮件,我们对邮件中的正文信息、附件信息以及头部信息分别做了处理!其实大部分时间是花在了数据处理上!!!其中有三分之二的数据是非垃圾邮件下的,本文只是完成了数据处理和朴素贝叶斯分类,当然还有更好的分类方法,大家可以多尝试!!
代码
数据处理以及实现朴素贝叶斯分类只使用到了tm
包。
数据获取代码下载
代码数据下载
代码数据介绍:
主要使用了R语言对邮件的头部、正文、附件进行了数据处理;开发了针对文件按邮件的数据函数,以及手动实现了朴素贝叶斯分类方法,和最终结果的可视化。
数据中一共有6000多个邮件,其中三分之二为非垃圾邮件。
对R语言感兴趣的同学可以下载数据代码使用,数据处理部分巧妙地运用了R语言中的数据结构,从对邮件中的小样本进行