第635行: |
第635行: |
| | | |
| ==与机器学习、人工智能之间的异同== | | ==与机器学习、人工智能之间的异同== |
| + | 需要清楚的是,数据科学、机器学习、人工智能这三者之间的限定并不是那么绝对:并不是所有符合每个定义的东西都只属于这个领域。使用的是描述性的方法而不是说明性的方法来说明这三者的区别: |
| + | *数据科学产生见解 |
| + | *机器学习产生预测 |
| + | *人工智能产生行为 |
| + | |
| + | ===数据科学负责见解=== |
| + | 数据科学与其他两个领域不同,因为它的目标跟人类的目标尤其接近:获得洞察力和理解力。'''Jeff Leek 杰夫韭菜''' 对数据科学所能达到的见解类型有一个很好的定义,包括描述性,探索性和因果关系。 |
| + | --[[用户:趣木木|趣木木]]([[用户讨论:趣木木|讨论]])Jeff Leek 杰夫韭菜的cnki翻译意义感觉不太对 |
| + | |
| + | 同样,并不是所有产生见解的东西都有资格成为数据科学(数据科学的经典定义是它包含了统计、软件工程和领域专家的结合)。但是我们可以用这个定义把数据科学同机器学习和人工智能区别出来。它们之间的主要区别在于,在数据科学中,总是有一个人在循环当中:某人理解这个观点,看到数字,或者从结论中获益。说“下棋算法使用数据科学来选择下一步行动”,或者“谷歌地图使用数据科学来推荐驾驶方向”都是毫无意义的。 |
| + | |
| + | 因此,数据科学的定义强调: |
| + | #统计推断 |
| + | #数据可视化 |
| + | #实验设计 |
| + | #领域知识 |
| + | #沟通 |
| + | 数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询绘制线形图。还可以使用非常复杂的方法:可能与分布数据商店合作,分析数以万亿计的记录,开发前沿的统计技术,建立交互式可视化。不管使用什么,目的是为了更好地理解数据。 |
| + | |
| + | ===机器学习负责预测=== |
| + | |
| + | 机器学习是一个预测领域:“给定实例X具有特定的特征然后进行预测”。这些预测可能是关于未来的(“预测这个病人是否会进入脓毒症”),但也可能是对于计算机来说并不是很轻易就识别出来的一些特质(“预测这个图像是否有鸟在里面”)。几乎所有的Kaggle竞赛都认为是机器学习的问题:提供一些训练数据,然后看看竞争对手能否对新的例子做出准确的预测。 |
| + | |
| + | 数据科学和机器学习之间有很多重叠。例如,可以使用逻辑回归得出见解的关系(“富裕的用户更有可能会买我们的产品,所以我们应该改变我们的营销策略”),从而进行预测(“该用户有53%机会购买我们的产品,所以应该把产品推荐给他们”)。 |
| + | |
| + | 像随机森林这种模型可解释性稍差,更适合“机器学习”的描述,而深度学习等方法则难以解释。如果你的目标是获取真知灼见,而不是做出预测,这可能会妨碍你。因此,我们可以假设有一个数据科学和机器学习的“光谱”,更倾向于数据科学的可解释模型和机器学习方面更多的“黑匣子”模型。 |
| + | |
| + | |
| + | |
| + | 大多数的实践者会在两个任务之间来回切换非常轻松。在我的工作中使用了机器学习和数据科学:我可以在Stack Overflow上安装一个模型,以确定哪些用户可能正在寻找工作(机器学习),然后构建总结和可视化来检验模型的工作原理(数据科学)。 这是发现模型中的缺陷,并与算法偏见作斗争的重要途径。这是数据科学家经常负责开发产品的机器学习组件的原因之一。 |
| + | |
| + | ===人工智能负责行为=== |
| + | |
| + | |
| + | 人工智能是这三个名称当中迄今为止最古老以及最广为人知的,因此它的定义也是最具有挑战性的。感谢那些寻求金钱或关注的研究人员、记者和初创公司,使得人工智能这一术语被大量的传播和营销。 |
| + | |
| + | 在“人工智能”的所有定义中,有一个共同点就是自主代理人执行或推荐操作(例如Poole, Mackworth和Goebel 1998, Russell和Norvig 2003)。一些我认为应该描述为AI的系统包括: |
| + | |
| + | 游戏算法(Deep Blue,AlphaGo) |
| + | 机器人技术与控制理论(运动规划,行走两足机器人) |
| + | 优化(谷歌地图选择路线) |
| + | 自然语言处理(bots) |
| + | 强化学习 |
| + | 同样,我们可以看到很多与其他领域的重叠。深度学习既属于机器学习范畴,又属于AI领域,这是非常有趣的。典型的用例是对数据进行训练,然后生成预测,在像AlphaGo这样的博弈算法中已经取得了巨大的成功。 |
| + | |
| + | 但也有区别。如果我分析一些销售数据并发现特定行业的客户比其他行业的客户更新更多,那么输出是一些数字和图形,而不是特定的操作。(高管们可能会用这些结论来调整销售策略,但这种做法并不是自动的)。 |
| + | |
| + | 人工智能和机器学习之间的区别更加微妙,历史上的机器学习经常被认为是人工智能的一个分支(特别是计算机视觉,这是一个典型的人工智能问题)。但我认为,机器学习领域很大程度上已经从人工智能独立出来了,部分原因是上面描述的反弹案例:大多数从事预测问题的人不喜欢把自己描述为人工智能研究人员。 |
| + | |
| + | ===案例研究:三项技术如何一起使用?=== |
| + | 假设正在建造一辆无人驾驶车,现在卡在了停车标志这个具体问题上面。我们需要用到这三个领域之间的相关技术。 |
| + | |
| + | 机器学习:汽车必须通过摄像头识别停车标志。我们构建了数以百万计的街边物体照片数据集,并训练算法来预测哪些街边是有停车标志。 |
| + | |
| + | 人工智能:一旦汽车能够识别停车标志,它就需要决定何时采取刹车动作。我们需要它能够根据不同的路况进行判断(例如,在湿滑的路面上要能知道不能刹车刹的太快),太早或太晚都是有危险的,这属于控制理论的范畴。 |
| + | |
| + | 数据科学:街头测试的结果证明这辆车的性能还不够好,在某些场景下面,它可能沿着停车标志额右边行驶,但是这种情况漏报了。在分析了街道测试数据之后,我们得到了结论,漏报场景的概念根据一天当中不同的时间段有关:在日出之前或日落之后,更有可能错过一个停车标志。我们发现了大部分的数据集里面的数据只包含了白天的物体,因此又构造了一个更好的数据集,它包括了夜间图像,然后重新回到机器学习步骤。 |
| + | |
| + | |
| + | 来源:https://blog.csdn.net/dev_csdn/article/details/79127658 翻译原文http://varianceexplained.org/r/ds-ml-ai/ 原文作者:David Robinson |
| | | |
| ==Relationship to statistics与统计学的关系== | | ==Relationship to statistics与统计学的关系== |