在人工智能和机器学习方面,有监督和无监督学习有什么区别?您能举例说明一个基本的,简单的解释吗?
既然你问这个非常基本的问题,看起来值得指出机器学习本身是什么.
机器学习是一类数据驱动的算法,即与"普通"算法不同,它是"告诉"什么是"好答案"的数据.示例:用于图像中的面部检测的假设非机器学习算法将尝试定义面部是什么(圆形皮肤状彩色圆盘,具有您期望眼睛的暗区等).机器学习算法不会有这样的编码定义,但会"逐个学习":你会展示几个面部和非面部的图像,一个好的算法最终会学习并能够预测是否看不见图像是一张脸.
这个特殊的人脸检测示例受到监督,这意味着您的示例必须标记,或明确说明哪些是面,哪些不是.
在无监督算法中,您的示例没有标记,即您没有说什么.当然,在这种情况下,算法本身不能"发明"面部是什么,但是它可以尝试将数据聚类成不同的组,例如,它可以区分面部与景观非常不同,景观与马匹非常不同.
由于另一个答案提到它(虽然,以不正确的方式):有"中间"形式的监督,即半监督和主动学习.从技术上讲,这些是监督方法,其中有一些"智能"方法来避免大量标记的例子.在主动学习中,算法本身决定你应该标记哪个东西(例如,它可以非常确定景观和马,但它可能会要求你确认大猩猩是否确实是一张脸的图片).在半监督学习中,有两种不同的算法从标记的例子开始,然后相互"告诉"他们对大量未标记数据的思考方式.从这个"讨论"他们学到了.
监督学习是指您为算法提供的数据被"标记"或"标记",以帮助您的逻辑做出决策.
示例:贝叶斯垃圾邮件过滤,您必须将项目标记为垃圾邮件以优化结果.
无监督学习是一种算法类型,它们试图在没有原始数据之外的任何外部输入的情况下找到相关性.
示例:数据挖掘聚类算法.
其中训练数据包括输入矢量的示例以及它们对应的目标矢量的应用被称为监督学习问题.
在其他模式识别问题中,训练数据由一组输入矢量x组成,没有任何相应的目标值.这种无监督学习问题的目标可能是在数据中发现类似示例的组,其中称为聚类
模式识别与机器学习(Bishop,2006)
在监督学习中,输入x
被提供有预期结果y
(即,当输入时模型应该产生的输出x
),其通常被称为相应输入的"类"(或"标签")x
.
在无监督学习中,x
未提供示例的"类" .因此,无监督学习可以被认为是在未标记数据集中找到"隐藏结构".
监督学习的方法包括:
分类(1R,朴素贝叶斯,决策树学习算法,如ID3 CART等)
数值预测
无监督学习的方法包括:
聚类(K-means,层次聚类)
关联规则学习
例如,经常训练神经网络是监督学习:你告诉网络哪个类对应你正在喂食的特征向量.
聚类是无监督学习:您让算法决定如何将样本分组到共享公共属性的类中.
无监督学习的另一个例子是Kohonen的自组织地图.
我可以告诉你一个例子.
假设您需要识别哪辆车是汽车,哪辆是摩托车.
在监督学习案例中,您的输入(训练)数据集需要进行标记,也就是说,对于输入(训练)数据集中的每个输入元素,您应指定它是代表汽车还是摩托车.
在无监督学习案例中,您不标记输入.无监督模型基于例如类似的特征/属性将输入聚类成聚类.因此,在这种情况下,没有像"汽车"这样的标签.