一,浅谈深入学习
在学习深入学习之前,就不得不谈一下人工智能和机器学习,至于原因:
人工智能>机器学习>深入学习
人工智能更多指的是一个目标,而机器学习是为了实现这个目标而开发出了一类方法,深入学习则更为具体,是一类方法中的一个点。
什么是人工智能
这个名词诞生于1956年的达特茅斯会议,通俗的解释就是让机器拥有感知、认知、决策、执行的能力。据参会人员说,这个词语也是他们借鉴的,最早可以追溯到图灵在1950年,发表的《计算机器与智能》中的机器智能,并提出认定机器智能的“图灵测试”。现在的验证码系统也属于一种图灵测试,不过简单的图灵测试(例如根据图片输入数字)用代码仍然可以破解。
人工智能的三个层面 | |
计算 | 使用暴力穷举策略的超级计算机Deeper Blue(国际象棋) |
感知 | 视觉、听觉、触觉 |
认知 | 逻辑推理、知识理解、决策思考 |
人工智能的应用场景
现在更广为人知的就是“人工智能+”,我们现在用到的支付宝就算是“人工智能+金融”,所带来的产品。还有鲁班系统,是“人工智能+内容创作”的产物,特别是在现在万物互联的时代,人工智能更是涉及到各个领域,随处可见。
什么是机器学习
实现人工智能有很多方法,这些方法主要是仿照人的逻辑演绎或者归纳总结的思想来模拟人,机器学习这一类方法是目前的主流方法。从人工智能被提出到现在,不同的时代也出现了不同的主流技术,也衍生出了不同的流派。
逻辑推理 | 符号主义,自上而下的模拟人的心智,使用符号、规则和逻辑来表征知识并进行逻辑推理。(逻辑推理:总结归纳、知识工程:专家系统) | ||
知识工程 | |||
机器学习 | 贝叶斯 | 自下而上+自上而下,对事件发生的可能性进行概率推理(朴素贝叶斯、隐马尔科夫) | |
联结主义 | 自下而上模拟脑结构,使用概率矩阵来识别和归纳模式。(神经网络) |
目前机器学习的最常用定义是:计算机系统能够利用经验来提高自身的性能(理解数据)。
专家系统与机器学习
专家系统是指根据专家定义的知识或经验,进行推理和判断,从而模拟人类专家的决策过程来解决问题。专家系统在生活中大家肯定也不陌生,例如知识图谱、BFI(大五人格测试)的调查问卷等等,BFI调查问卷的模式使给出很多问题,让我们在Agree strongly、Agree a little、Neither agree nor disagree等五个选项中对问题的答案进行选择,然后得出答者的性格特点,这么做的优点是省时、省力、灵活性强,但也带来一些问题这些问卷往往很长,答者烦躁随便选择(我就是这样),从而难以保证结果的一致性和准确性。
机器学习(针对问卷调查进行辨析)则可以是针对同一个语义概念,给出不同的图像模式(例如“以下关于日出的图像你最喜欢哪一个?”这类型的调查问卷),供答者选择。但机器学习我们需要在问卷投入使用前,先给机器一些样本数据(性格已知,然后进行喜欢图像的选择,形成{性格——{喜欢的图像}}的样本),让机器进行基于数据的自动学习,这样也可减少人工规则的主观性,提高可信度。目前的机器学习主要是应用在计算机视觉、语音、自然语言处理的领域。
机器学习学什么?
什么样的问题可以用机器学习来解决呢?一般对规模大、规则复杂的问题使用机器学习的方法来解决,但规模大、规则复杂的问题也不都能用机器学习来解决,还是有所限制的。
有大量数据 | 首先,我们需要采集大量数据供机器进行自动学习。 |
有意义的模式 | 例预测婴儿性别属于有意义的模式,而预测婴儿什么时候哭属于没有意义的模式。 |
无解析解 | 机器学习擅长用优化的方法,求近似解。 |
满足上面的条件之后,我们再从模型、策略、算法三个维度来进行我们问题的解剖。类比一个线性回归问题,我们需要先建立线性回归的模型,然后选择最优的模型(直线的截距和斜率),然后用算法从输入得到我们预测的结果。
模型分类
有很多种分类方式,首先,我们从数据标记的视角进行分类。
监督学习 | 数据都有标记,可以预测数据,得到输入-输出的映射函数 |
无监督学习 | 数据都无标记,适用于描述数据,例聚合问题 |
半监督学习 | 少量标记、大量无标记 |
强化学习 | 不知道数据的标记,但能得到与目标相关的一个反馈 |
半监督学习: 标记样本往往成本很大,当标记样本难以获取,无标记样本相对廉价时,我们假设未标记样本与标记样本独立分布,从而根据未标记样本我们可以获取数据分布的重要信息,来帮助我们进行问题的解决。
强化学习:使用未标记的数据,但是可以知道离目标越来越近还是越来越远(奖励反馈)。