40

面对到处兜售的“AI”和“机器学习”,7条原则帮你识破骗局!

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzI2NjkyNDQ3Mw%3D%3D&%3Bmid=2247493629&%3Bidx=2&%3Bsn=2217de07d534ab7862abed33a366513d
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

EjyQZvZ.jpg!web

全文共 2427 字,预计学习时长 8 分钟

ayeMJrm.jpg!web

图源:unsplash

作为新晋风口“AI”和“机器学习”,无论是商业领导人、创业者、天使投资人、企业中层管理人员、黑客马拉松的裁判还是“技术”相关人员,都有可能面对这种情况:有人试图“推销”他们的“AI产品”、“机器学习软件”或者其他时髦词汇的花哨组合。

如果陷入这样的境地,有时你会感到专业知识不足,无法妥善决策。

坚守阵地,不要被吓倒了!以下七条常识可以帮你从捕捉信号,看穿夸夸其谈的说辞,识破骗局和谎言。

NnuUFb2.jpg!web

1.“我们用AI来…”

爱因斯坦说“不能简明地解释一件事,说明你对它懂得不够多。”

如果有人说到“AI”这一包罗万象的概念,请小心,这有可能是花哨的推销。当然啦,也有可能是真的为了避免顾客烦心,因此省略了令人痛苦的复杂细节。

可以先假定他们无罪,但是要深挖细节,多了解一下具体使用了哪个机器学习模型,并让他们通过类比解释。

你可以问问他们这些问题:

1.  为什么选择这一方案,不选其他方案?

2.  为什么对于这些数据,这个方案胜过其他方案?

3.  是否有人解决过类似的问题?如果有,他们采用了什么方法?

4.  有试过别的方法(模型/算法/技术)吗?结果与现在的方案有什么不同?(如果可以的话,要求提供图表作为证据)

尽管没必要一开始就明白所有问题的答案,但是我们应该问问题,尽可能地弄清楚、搞明白。笔者还没有遇到过哪个机器学习概念是无法用类比解释的。因此,如果觉得谈论太多技术细节太过困难,就要求进一步的解释。这样仔细的审查不仅能加深理解,也能展示该方案的思路。

NnuUFb2.jpg!web

2.无用输入,无用输出

U7VjAb7.gif

图源: https://media.tenor.com

“除了上帝,我只相信(优质)数据。”——爱德华兹·戴明

只有优质的数据,才能得到优秀的模型。因此,你应确认用于训练机器学习模型的数据质量。虽然“质量”难以定义,但有一个简单的方法可以了解训练数据的质量,问问他:与模型在“现实世界”处理的数据相比,训练数据的相似度和代表性如何?

无论一个机器学习模型有多花哨、多前沿,如果用于训练的数据质量堪忧,结果必然极其糟糕。

NnuUFb2.jpg!web

3.适者生存

上世纪90年代到本世纪初,电子收件箱的垃圾邮件过滤器会寻找拼写错误和其他明显的迹象,自动将垃圾邮件放入垃圾邮件文件夹。

现在,垃圾邮件制造者变得更聪明了,垃圾邮件也越来越难检测了。现在的电子邮件服务商必须适应这一趋势,采用更精密的机器学习模型,准确识别垃圾邮件。

NZJzYv3.jpg!web

图源:unsplash

有一点我们必须明白:随着时代变化以及输入数据迭代,机器学习模型是否能够无障碍地用新数据重新训练,或者用更出色的模型替代。这很重要,顾客应该知道他们购买的方案是否有“有效期”。

NnuUFb2.jpg!web

4.用正确的标准衡量正确的东西

VbUreeM.jpg!web

图源:unsplash

衡量机器学习模型的分类性能标准当中,准确性是非常常见的标准。例如,对于分类猫和狗图片的机器学习模型来说,96%的准确率可以说非常出色。这意味着在100张猫和狗的图片中,模型能够准确地猜出其中96张。

现在,假设某银行将同样的标准应用于对欺诈交易的识别。欺诈识别器可以轻松达到96%的准确率,因为欺诈交易十分罕见。然而识别欺诈交易并不是96%的正确识别就足够了,而是要降低出错率,错误识别4%的欺诈交易会带来很大的危害。

对于银行欺诈的例子来说,假负率比准确率更能反映模型的性能。根据不同问题的要求,可以用其他的标准替代准确率,比如精确率、召回率、特异性和F1值等。你必须留心他是否运用正确的指标,如果可能的话,可以使用多种指标。

NnuUFb2.jpg!web

5.更多,更多,更多!

一般来说,在其他条件不变的情况下,用于训练的数据越多,模型的表现就越好,深度学习模型尤其如此。它就好比备考SAT的高中生,如果做了大量的练习,练习了各种各样的问题,就更有可能在SAT考试中取得好成绩。

Y773myq.jpg!web

图源:unsplash

获得(足够)数据之前就形成理论是一个重大的错误。重要的是,确保任何机器学习模型都有足够的数据用于训练。多少数据才算够呢?多多益善!理想情况下,数据应该来源可靠,而且必须物尽其用。

NnuUFb2.jpg!web

6.可解释性

在机器学习中,往往需要在追求卓越模型性能和简要解释模型运行之间保持平衡,低性能模型尤其如此。一般来说,对于复杂的数据,模型越精密、越复杂就越好。然而,因为这些模型更加复杂,解释输入数据对输出结果的影响也就更加困难。

举个例子,假设要用非常复杂的机器学习模型预测某产品的销量。输入模型的数据是电视、报纸和广播的广告开支。这个复杂模型能够给出非常准确的销量预测,但是无法解释这3种推广渠道,即电视、广播和报纸,哪个对销量的影响最大、哪个更值得投入。

另一方面,更简单的模型可能结果没有那么准确,但是能够解释哪个渠道更值得投入。顾客必须有平衡模型性能和可解释性的意识。这很重要,因为如何在可解释性和性能之间取得平衡取决于目的,因此使用模型的人必须做出决定。

NnuUFb2.jpg!web

7.那么…你有什么优点和缺点?

iAJziuB.gif

图源: https://i2.wp.com

这是企业面试时常问的问题。在评估机器学习方案时,优缺点问题非常有用。如果有人推荐某个机器学习方案,一定要问问他们这个方案的局限性:

1.  采用这一方案是否利大于弊?

2.  该方案的局限性将来是否会影响其性能?

成功的关键在于了解自身弱点并成功地弥补弱点。缺乏这一能力的人总是失败。站在采用高效、可持续的机器学习方案的角度来说,了解其局限性对于其成功至关重要。

不仅如此,要求推荐者说明方案的局限性也能反映透明度的问题。这反映出推荐这一方案的人考虑有多细致、是否值得信任。

如你所见,识破谎言的关键之处就是不要慌张,大胆提问吧!询问、澄清、仔细审查所有不确定的东西。依靠这7条建议,你可以强化理解并全面评估机器学习方案。答不上来这些问题的推销者们,还不快快现身!

VbeE7j3.jpg!web

推荐阅读专题

NBJ7vyI.jpg!web

bEniumQ.jpg!web

m6jER3M.jpg!web

iuUFJbn.jpg!web

Nbqmy26.jpg!web

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:蔡思齐、周果

相关链接:

https://towardsdatascience.com/7-ways-to-catch-a-data-scientists-lies-and-deception-5eaae79d2303

如转载,请后台留言,遵守转载规范

推荐文章阅读


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK