0
点赞
收藏
分享

微信扫一扫

监督学习和无监督学习


文章目录

  • ​​监督学习算法​​
  • ​​1.定义​​
  • ​​2.分类​​
  • ​​回归问题​​
  • ​​分类问题​​
  • ​​无监督学习算法​​
  • ​​1.定义​​
  • ​​2.分类​​
  • ​​聚类​​


机器学习算法中,可以分为:

  • 监督学习算法
  • 无监督学习算法

监督学习算法

1.定义

监督学习是指,我们给算法一个数据集,其中包含了正确的答案,比如我们给监督学习算法一个房价的数据集,在这个数据集的每一个样本中都包含一个正确答案(销售价格),那么监督学习算法的目的就是给出尽可能多的正确的答案,即更多种可能的价格,

我们希望在监督学习算法中,在数据集的每一个样本中,我们想要算法预测,并且得到正确的答案

2.分类

回归问题

回归问题是针对于连续型变量的。

举个栗子:

预测房屋价格假设想要预测房屋价格,绘制了下面这样的数据集。水平轴上,不同房屋的尺寸是平方英尺,在竖直轴上,是不同房子的价格,单位时(千万$)。给定数据,假设一个人有一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。这个时候,监督学习中的回归算法就能派上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。

监督学习和无监督学习_数据集

通过图像,我们可以看出直线拟合出来的150k,曲线拟合出来是200k,所以要不断训练学习,找到最合适的模型得到拟合数据(房价)。回归通俗一点就是,对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。

分类问题

和回归最大的区别在于,分类是针对离散型的,输出的结果是有限的。

举个栗子:

估计肿瘤性质假设某人发现了一个乳腺瘤,在乳腺上有个z肿块,恶性瘤是危险的、有害的;良性瘤是无害的。假设在数据集中,水平轴是瘤的尺寸,竖直轴是1或0,也可以是Y或N。在已知肿瘤样例中,恶性的标为1,良性的标为0。那么,如下,蓝色的样例便是良性的,红色的是恶性的。

监督学习和无监督学习_数据集_02

这个时候,机器学习的任务就是估计该肿瘤的性质,是恶性的还是良性的。那么分类就派上了用场,在这个例子中就是向模型输入人的各种数据的训练样本(这里是肿瘤的尺寸,当然现实生活里会用更多的数据,如年龄等),产生“输入一个人的数据,判断是否患有癌症”的结果,结果必定是离散的,只有“是”或“否”。所以简单来说分类就是,要通过分析输入的特征向量,对于一个新的向量得到其标签

无监督学习算法

1.定义

无监督学习是指一个数据集,我们不知道要拿他来干嘛,也不知道每个数据样本数据点是什么,我们只被告知这是一个数据集,那么对于一个这样的数据集,无监督学习只能判断数据集中的存在的数据子集,并且把其划分为各个簇,对于无监督学习,我们不能事先知道这些数据能带给我们什么样的信息,只有在学习后我们才能大概得出结论

2.分类

聚类

Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。或者根据给定基因把人群分类。如图是DNA数据,对于一组不同的人我们测量他们DNA中对于一个特定基因的表达程度。然后根据测量结果可以用聚类算法将他们分成不同的类型。这就是一种无监督学习, 因为我们只是给定了一些数据,而并不知道哪些是第一种类型的人,哪些是第二种类型的人等等。


举报

相关推荐

0 条评论