22

揭开AI、机器学习和深度学习的神秘面纱

 3 years ago
source link: https://www.leiphone.com/news/202011/h810txENV9SQUKf1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

译者:AI研习社( Disillusion

双语原文链接: https://www.yanxishe.com/TextTranslation/2998

深度学习、机器学习、人工智能——这些流行词皆代表了分析学的未来。在这篇文章中,我们将通过一些真实世界的案例来解释什么是机器学习和深度学习。在以后的文章中,我们将探索垂直用例。这样做的目的不是要把你变成一个数据科学家,而是让你更好地理解你可以用机器学习做什么。开发人员能越来越容易地使用机器学习,数据科学家时常与领域专家、架构师、开发人员和数据工程师一起工作,因此,详细了解机器学习的可能性对每个人来说都很重要。你的业务产生的每一条信息都有增加价值的潜力。这篇和以后的文章旨在激发你对自己数据的回顾,以发现新的机会。

什么是人工智能?

纵观人工智能的历史,其定义被不断重写。人工智能是一个概括性术语(这个概念始于50年代);机器学习是AI的子集,而深度学习又是机器学习的子集。

1985年,当我还是美国国家安全局的实习生时,人工智能也是一个非常热门的话题。在美国国家安全局,我甚至上了一节麻省理工关于人工智能专家系统的视频课程。专家系统在规则引擎中捕获专家的知识。规则引擎在金融和医疗保健等行业中有广泛的应用,最近更是用于 事件处理 ,但是当数据发生变化时,规则的更新和维护会变得异常困难。机器学习的优势在于 从数据中学习 ,并且可以提供数据驱动的概率预测。  

在过去10年里,分析学发生了怎样的变化 ?

根据 《哈佛商业评论》的托马斯•达文波特 ,分析技术过去十年里发生了翻天覆地的变化,跨商用服务器功能更强大、成本更低的分布式计算,流媒体分析、改进的机器学习技术,都使企业能够存储和分析更多的、不同类型的数据。  

类似 Apache Spark 这样的技术使用 迭代算法 ,通过在内存中跨迭代缓存数据并使用更轻量级的线程,进一步加速了分布式数据的并行处理。  

图形处理单元(GPUs)加快了多核服务器的并行处理速度。GPU拥有一个由数千个更小、更高效的核心组成的大规模并行架构,这些核心专门设计用于同时处理多任务,而CPU由几个为顺序串行处理而优化的核心组成。就潜在的性能而言,从Cray -1进化到如今拥有大量GPU的集群,其性能提升大约是曾经世界上最快计算机的100万倍,而成本却只有其 极小一部分 。  

什么是机器学习?

机器学习使用算法在数据中发现模式,然后使用一个能识别这些模式的模型对新的数据进行预测。

一般来说,机器学习可以分为三种类型:监督型、非监督型、介于两者之间。监督学习算法使用标记数据,而非监督学习算法在未标记数据中发现模式。半监督学习使用标记数据和未标记数据的混合。强化学习训练算法在反馈的基础上最大化奖励。

监督学习

监督算法使用标记数据,这些数据的输入和目标的结果或标签都会提供给算法。

监督学习也被称为预测建模或预测分析,因为你建立了一个能够做出预测的模型。预测建模的一些例子是分类和回归。分类根据已知项的已标记示例(例如,已知是否为欺诈的交易)来识别一个项属于哪个类别(例如,某交易是否为欺诈)。逻辑回归预测了一个概率——例如,欺诈的概率。线性回归预测一个数值——例如,欺诈的数量。

一些分类的例子包括:

  • 信用卡欺诈检测(欺诈,不是欺诈)。

  • 信用卡申请(良好信用,不良信用)。

  • 垃圾邮件检测(垃圾邮件,不是垃圾邮件)。

  • 文字情绪分析(快乐,不快乐)。

  • 预测患者风险(高风险患者、低风险患者)。

  • 恶性或非恶性肿瘤的分类。

逻辑回归(或其他算法)的一些例子包括:

  • 根据历史汽车保险欺诈性索赔以及这些索赔的特征,例如索赔人的年龄、索赔金额、事故严重程度等,预测欺诈发生的概率。

  • 给定患者特征,预测充血性心力衰竭的概率。

So线性回归的一些例子包括:

  • 根据历史汽车保险欺诈性索赔以及这些索赔的特征,如索赔人的年龄、索赔金额、事故的严重程度等,预测欺诈金额。

  • 根据历史房地产销售价格和房屋特征(如平方英尺,卧室数量,位置),预测房子的价格。

  • 根据历史上的社区犯罪统计,预测犯罪率。

这里 还有其他的监督和非监督学习算法,我们不会一一介绍,但我们会详细介绍每类中的一个。 

分类示例 :借记卡诈骗

分类选用一组具有已知标签和预先确定特性的数据,并学习如何根据这些信息标记新数据。特性是你问的“是否”问题。标签就是这些问题的答案。

让我们看一个借记卡诈骗的示例。

我们想要预测什么?

  • 某一笔借记卡交易是否为欺诈。

  • 欺诈是标签(对或错)。

你可以用来进行预测的“ 是否 ”问题或属性是什么?

  • 今天花费的金额是否大于历史平均水平?

  • 今天的这些交易是否在多个国家?

  • 今天的交易数量是否大于历史平均水平?

  • 今天的新商户类型与过去三个月相比是否较高?

  • 今天是否在多个带有风险类别代码的商家处购买?

  • 今天是否有不寻常的签名与以往使用PIN相比?

  • 与过去三个月相比,是否有新的购买行为?

  • 与过去三个月相比,现在是否有国外购买?

要构建分类器模型,你需要提取对分类最有贡献的有用特性。

决策树

决策树创建一个基于输入特征预测类或标签的模型。它的工作原理在于评估每个节点上包含一个特征的问题,然后根据答案选择到下一个节点的分支。预测借记卡欺诈的可能决策树如下所示。特性问题是节点,答案“是”或“否”是树中到子节点的分支。(注意,真正的树会有更多的节点。)

问题一:24小时内的花费是否大于平均?

问题2:今天是否有多笔交易来自高风险的商家?

  • 是欺诈概率 = 90%

  • 非欺诈概率 = 50%

决策树很受欢迎,因为它们易于可视化和解释。将算法与集成方法相结合,可以提高模型的精度。一个集成例子是一个随机森林算法,它结合了决策树的多个随机子集。

无监督学习

无监督学习,有时也被称为描述分析,没有预先提供的标记数据。这些算法发现输入数据中的相似性或规律。无监督学习的一个例子是基于购买数据对相似的客户进行分组。

聚类

在聚类中,一个算法通过分析输入实例之间的相似性将它们分类。一些聚类用例包括:

  • 搜索结果分组。

  • 分组相似客户。

  • 分组相似病人。

  • 文本分类。

  • 网络安全异常检测(发现不相似之处,集群中的异常值)。

K均值算法将数据分组到K个集群中,每个数据都属于离其集群中心均值最近的集群。

聚类的一个例子是,一个公司希望细分其客户,以便更好地定制产品和服务。客户可以依据比如人口统计和购买历史记录等特征被分组。为了得到更有价值的结果,无监督学习的聚类常常与有监督学习相结合。例如,在这个 banking customer 360 用例中,首先根据问卷答案对客户进行细分。接着对客户群体进行分析,并标上用户画像。然后,这些标签通过客户ID与账户类型和购买内容等特性进行链接。最后,我们在被标签的客户身上应用了监督机器学习,允许将调查用户画像与他们的银行行为联系起来,以提供深入的见解。  

深度学习

深度学习用来称呼多层神经网络,它是由输入和输出之间的节点“隐含层”组成的网络。神经网络有许多变种,你可以在这个神经网络备忘单上了解更多。改进的算法、GPUs和大规模并行处理(MPP)使得具有数千层的神经网络成为可能。每个节点接受输入数据和一个权重,然后向下一层的节点输出一个置信值,直到到达输出层,计算出该置信值的误差。通过在一个叫做梯度下降的过程中进行反向传播,误差会再次通过网络发送回来,并调整权值来改进模型。这个过程重复了数千次,根据产生的误差调整模型的权值,直到误差不无法再减少为止。

在此过程中,各层学习模型的最优特征,其优点是特征不需要预先确定。然而,这也意味着一个缺点,即模型的决策是不可解释的。由于解释决策可能很重要,研究人员正在开发新的方法来理解深度学习这个黑盒子。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

Z36Bvqa.png!mobile

雷锋网版权文章,未经授权禁止转载。详情见 转载须知

YBNBbyV.png!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK