面对到处兜售的“AI”和“机器学习”，7条原则帮你识破骗局！

EjyQZvZ.jpg!web

全文共 2427 字，预计学习时长 8 分钟

ayeMJrm.jpg!web

图源：unsplash

作为新晋风口“AI”和“机器学习”，无论是商业领导人、创业者、天使投资人、企业中层管理人员、黑客马拉松的裁判还是“技术”相关人员，都有可能面对这种情况：有人试图“推销”他们的“AI产品”、“机器学习软件”或者其他时髦词汇的花哨组合。

如果陷入这样的境地，有时你会感到专业知识不足，无法妥善决策。

坚守阵地，不要被吓倒了！以下七条常识可以帮你从捕捉信号，看穿夸夸其谈的说辞，识破骗局和谎言。

NnuUFb2.jpg!web

1.“我们用AI来…”

爱因斯坦说“不能简明地解释一件事,说明你对它懂得不够多。”

如果有人说到“AI”这一包罗万象的概念，请小心，这有可能是花哨的推销。当然啦，也有可能是真的为了避免顾客烦心，因此省略了令人痛苦的复杂细节。

可以先假定他们无罪，但是要深挖细节，多了解一下具体使用了哪个机器学习模型，并让他们通过类比解释。

你可以问问他们这些问题：

1. 为什么选择这一方案，不选其他方案？

2. 为什么对于这些数据，这个方案胜过其他方案？

3. 是否有人解决过类似的问题？如果有，他们采用了什么方法？

4. 有试过别的方法（模型/算法/技术）吗？结果与现在的方案有什么不同？（如果可以的话，要求提供图表作为证据）

尽管没必要一开始就明白所有问题的答案，但是我们应该问问题，尽可能地弄清楚、搞明白。笔者还没有遇到过哪个机器学习概念是无法用类比解释的。因此，如果觉得谈论太多技术细节太过困难，就要求进一步的解释。这样仔细的审查不仅能加深理解，也能展示该方案的思路。

NnuUFb2.jpg!web

2.无用输入，无用输出

图源： https://media.tenor.com

“除了上帝，我只相信（优质）数据。”——爱德华兹·戴明

只有优质的数据，才能得到优秀的模型。因此，你应确认用于训练机器学习模型的数据质量。虽然“质量”难以定义，但有一个简单的方法可以了解训练数据的质量，问问他：与模型在“现实世界”处理的数据相比，训练数据的相似度和代表性如何？

无论一个机器学习模型有多花哨、多前沿，如果用于训练的数据质量堪忧，结果必然极其糟糕。

NnuUFb2.jpg!web

3.适者生存

上世纪90年代到本世纪初，电子收件箱的垃圾邮件过滤器会寻找拼写错误和其他明显的迹象，自动将垃圾邮件放入垃圾邮件文件夹。

现在，垃圾邮件制造者变得更聪明了，垃圾邮件也越来越难检测了。现在的电子邮件服务商必须适应这一趋势，采用更精密的机器学习模型，准确识别垃圾邮件。

NZJzYv3.jpg!web

图源：unsplash

有一点我们必须明白：随着时代变化以及输入数据迭代，机器学习模型是否能够无障碍地用新数据重新训练，或者用更出色的模型替代。这很重要，顾客应该知道他们购买的方案是否有“有效期”。

NnuUFb2.jpg!web

4.用正确的标准衡量正确的东西

VbUreeM.jpg!web

图源：unsplash

衡量机器学习模型的分类性能标准当中，准确性是非常常见的标准。例如，对于分类猫和狗图片的机器学习模型来说，96%的准确率可以说非常出色。这意味着在100张猫和狗的图片中，模型能够准确地猜出其中96张。

现在，假设某银行将同样的标准应用于对欺诈交易的识别。欺诈识别器可以轻松达到96%的准确率，因为欺诈交易十分罕见。然而识别欺诈交易并不是96%的正确识别就足够了，而是要降低出错率，错误识别4%的欺诈交易会带来很大的危害。

对于银行欺诈的例子来说，假负率比准确率更能反映模型的性能。根据不同问题的要求，可以用其他的标准替代准确率，比如精确率、召回率、特异性和F1值等。你必须留心他是否运用正确的指标，如果可能的话，可以使用多种指标。

NnuUFb2.jpg!web

5.更多，更多，更多！

一般来说，在其他条件不变的情况下，用于训练的数据越多，模型的表现就越好，深度学习模型尤其如此。它就好比备考SAT的高中生，如果做了大量的练习，练习了各种各样的问题，就更有可能在SAT考试中取得好成绩。

Y773myq.jpg!web

图源：unsplash

获得（足够）数据之前就形成理论是一个重大的错误。重要的是，确保任何机器学习模型都有足够的数据用于训练。多少数据才算够呢？多多益善！理想情况下，数据应该来源可靠，而且必须物尽其用。

NnuUFb2.jpg!web

6.可解释性

在机器学习中，往往需要在追求卓越模型性能和简要解释模型运行之间保持平衡，低性能模型尤其如此。一般来说，对于复杂的数据，模型越精密、越复杂就越好。然而，因为这些模型更加复杂，解释输入数据对输出结果的影响也就更加困难。

举个例子，假设要用非常复杂的机器学习模型预测某产品的销量。输入模型的数据是电视、报纸和广播的广告开支。这个复杂模型能够给出非常准确的销量预测，但是无法解释这3种推广渠道，即电视、广播和报纸，哪个对销量的影响最大、哪个更值得投入。

另一方面，更简单的模型可能结果没有那么准确，但是能够解释哪个渠道更值得投入。顾客必须有平衡模型性能和可解释性的意识。这很重要，因为如何在可解释性和性能之间取得平衡取决于目的，因此使用模型的人必须做出决定。

NnuUFb2.jpg!web

7.那么…你有什么优点和缺点？

图源： https://i2.wp.com

这是企业面试时常问的问题。在评估机器学习方案时，优缺点问题非常有用。如果有人推荐某个机器学习方案，一定要问问他们这个方案的局限性：

1. 采用这一方案是否利大于弊？

2. 该方案的局限性将来是否会影响其性能？

成功的关键在于了解自身弱点并成功地弥补弱点。缺乏这一能力的人总是失败。站在采用高效、可持续的机器学习方案的角度来说，了解其局限性对于其成功至关重要。

不仅如此，要求推荐者说明方案的局限性也能反映透明度的问题。这反映出推荐这一方案的人考虑有多细致、是否值得信任。

如你所见，识破谎言的关键之处就是不要慌张，大胆提问吧！询问、澄清、仔细审查所有不确定的东西。依靠这7条建议，你可以强化理解并全面评估机器学习方案。答不上来这些问题的推销者们，还不快快现身！

VbeE7j3.jpg!web

推荐阅读专题

NBJ7vyI.jpg!web

bEniumQ.jpg!web

m6jER3M.jpg!web

iuUFJbn.jpg!web

Nbqmy26.jpg!web

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组：蔡思齐、周果

Recommend

前端渣渣的我再也不敢说我会写Button组件了

杨天真直播首秀销量平平，踩雷了还是勇敢突破？

千亿级数据毫秒响应，为什么它最有机会干掉传统数据存储模式？

英国当局试图投放广告遏制网络犯罪

路由控制工具（之一）分发列表（Distribute-List）-加国科技狗

暗物质探测数据分析指向太阳轴子

Nvidia Mellanox亚太区产品总监马绍文将出席网络数据平面创新峰会

直播预告：SPDK虚拟化存储方案介绍和最佳实践

今日推荐 | 一文读懂“链上”和“链下”

开域聊天机器人技术介绍（现实篇）

About Joyk