简单认识监督学习
⭐️Supervised learning
监督机器学习是指学习x到y
或者 输入到输出
映射的算法。
监督学习的关键特征是,我们自己提供学习算法示例以供学习。
这其实就是,给定输入x的正确标签y
,机器通过查看正确
的输入x
和所需的标签y
,最终学会学习算法。即,当我们只是给出输入x
,机器就能够给出合理准确的预测
或者猜想
。
⭐️Examples
或者,我们可以将图片
作为输入
,比如说,刚下线的手机,将其图片作为输入,让学习算法根据输入的手机产品的 图片来判断
是否存在划痕、凹痕或者其他缺陷。
这个称为目视检查
,它可以帮助制造商减少或者防止其产品中的缺陷。
在上面的这些例子中,我们首先需要输入大量的示例
,即输入x和与其相对应的正确答案即标签y来训练我们的模型
。
在模型从这些输入、输出(x和相对应的y)中学习之后
,它们可以采用全新的输入x
(它以前从未见过的东西),并尝试产生适当的对应输出y
。
⭐️Specific example
下面让我们更深入地研究一个具体的示例。
房价预测问题。
假如我们想根据房屋地大小来预测房价,并且我们已经收集到了一些过去的数据,并绘制了数据。
这里的横轴是以平方英尺为单位的房屋大小,纵轴是房子的价格。
有了这些数据,假如你的一位朋友想直到他们750平方英尺的房子的价格是多少。那通过学习算法如何帮助到你的朋友呢?
学习算法可能会通过指向拟合数据,通过直线上的数据以及直线以外的读数,可以大概预测到房子大概可以卖到150,000美元。
但拟合直线并不是我们可以使用的唯一学习算法。还有更好的可以应用于此。
比如,我们用下面的曲线进行拟合:
这样看起来,你的朋友的房子可以接近于200,000美元的价格。
给你的朋友选择最好的价格出售并不合适,我们应该关注的一件事是,如何选择最合适的直线或者曲线来适应这个数据,给出最合适的数据。
⭐️两种类型的监督学习算法
🌙回归算法
🌙分类算法
然后我们收集一些数据,这些数据根据肿瘤的大小,将数据分为良性或者恶性。
比如说,下面,为了方便研究,我们将良性标注为0,恶性标注为1。
然后,我们将数据绘制在图表中,横轴代表肿瘤块的大小,纵轴仅仅取两个值,0和1,这是因为我们仅仅需要预测少量可能的输出或者类别。在这个例子中,仅仅有两个可能的输出,良性
或者恶性
,即0或1
。
我们可以使用两个符号进行更形象化表示,比如良性我们使用圆圈表示,恶性我们使用十字表示。
在上面我们的数据集只有一个输入,即患者肿瘤块的大小。为了更精确的预测,我们将我们的数据集的输入新增至两个,即肿瘤块的大小和患者的年龄。
所以这时医生就可以根据患者的肿瘤块的大小以及患者年龄,进行预测。
也就是,学习算法可能会做的就是找到一些将恶性肿瘤与良性肿瘤分开的边界。
也就是说,学习算法必须决定如何根据现有的数据集来拟合边界线。