面对到处兜售的“AI”和“机器学习”，7条原则帮你识破骗局

发布时间：2020-06-20 09:33:43 所属栏目：模式来源：站长网

导读：本文转载自公众号读芯术(ID：AI_Discovery)。作为新晋风口AI和机器学习，无论是商业领导人、创业者、天使投资人、企业中层管理人员、黑客马拉松的裁判还是技术相关人员，都有可能面对这种情况：有人试图推销他们的AI产品、机器学习软件或者其他时髦词汇的

本文转载自公众号“读芯术”(ID：AI_Discovery)。

作为新晋风口“AI”和“机器学习”，无论是商业领导人、创业者、天使投资人、企业中层管理人员、黑客马拉松的裁判还是“技术”相关人员，都有可能面对这种情况：有人试图“推销”他们的“AI产品”、“机器学习软件”或者其他时髦词汇的花哨组合。

如果陷入这样的境地，有时你会感到专业知识不足，无法妥善决策。

坚守阵地，不要被吓倒了!以下七条常识可以帮你从捕捉信号，看穿夸夸其谈的说辞，识破骗局和谎言。

1. “我们用AI来…”

爱因斯坦说“不能简明地解释一件事,说明你对它懂得不够多。”

如果有人说到“AI”这一包罗万象的概念，请小心，这有可能是花哨的推销。当然啦，也有可能是真的为了避免顾客烦心，因此省略了令人痛苦的复杂细节。

可以先假定他们无罪，但是要深挖细节，多了解一下具体使用了哪个机器学习模型，并让他们通过类比解释。

你可以问问他们这些问题：

为什么选择这一方案，不选其他方案? 为什么对于这些数据，这个方案胜过其他方案? 是否有人解决过类似的问题?如果有，他们采用了什么方法? 有试过别的方法(模型/算法/技术)吗?结果与现在的方案有什么不同?(如果可以的话，要求提供图表作为证据)

尽管没必要一开始就明白所有问题的答案，但是我们应该问问题，尽可能地弄清楚、搞明白。笔者还没有遇到过哪个机器学习概念是无法用类比解释的。因此，如果觉得谈论太多技术细节太过困难，就要求进一步的解释。这样仔细的审查不仅能加深理解，也能展示该方案的思路。

2. 无用输入，无用输出

只有优质的数据，才能得到优秀的模型。因此，你应确认用于训练机器学习模型的数据质量。虽然“质量”难以定义，但有一个简单的方法可以了解训练数据的质量，问问他：与模型在“现实世界”处理的数据相比，训练数据的相似度和代表性如何?

无论一个机器学习模型有多花哨、多前沿，如果用于训练的数据质量堪忧，结果必然极其糟糕。

3. 适者生存

上世纪90年代到本世纪初，电子收件箱的垃圾邮件过滤器会寻找拼写错误和其他明显的迹象，自动将垃圾邮件放入垃圾邮件文件夹。

现在，垃圾邮件制造者变得更聪明了，垃圾邮件也越来越难检测了。现在的电子邮件服务商必须适应这一趋势，采用更精密的机器学习模型，准确识别垃圾邮件。

有一点我们必须明白：随着时代变化以及输入数据迭代，机器学习模型是否能够无障碍地用新数据重新训练，或者用更出色的模型替代。这很重要，顾客应该知道他们购买的方案是否有“有效期”。

4. 用正确的标准衡量正确的东西

衡量机器学习模型的分类性能标准当中，准确性是非常常见的标准。例如，对于分类猫和狗图片的机器学习模型来说，96%的准确率可以说非常出色。这意味着在100张猫和狗的图片中，模型能够准确地猜出其中96张。

现在，假设某****将同样的标准应用于对欺诈交易的识别。欺诈识别器可以轻松达到96%的准确率，因为欺诈交易十分罕见。然而识别欺诈交易并不是96%的正确识别就足够了，而是要降低出错率，错误识别4%的欺诈交易会带来很大的危害。

对于****欺诈的例子来说，假负率比准确率更能反映模型的性能。根据不同问题的要求，可以用其他的标准替代准确率，比如精确率、召回率、特异性和F1值等。你必须留心他是否运用正确的指标，如果可能的话，可以使用多种指标。

5. 更多，更多，更多!

一般来说，在其他条件不变的情况下，用于训练的数据越多，模型的表现就越好，深度学习模型尤其如此。它就好比备考SAT的高中生，如果做了大量的练习，练习了各种各样的问题，就更有可能在SAT考试中取得好成绩。

获得(足够)数据之前就形成理论是一个重大的错误。重要的是，确保任何机器学习模型都有足够的数据用于训练。多少数据才算够呢?多多益善!理想情况下，数据应该来源可靠，而且必须物尽其用。

6. 可解释性

在机器学习中，往往需要在追求卓越模型性能和简要解释模型运行之间保持平衡，低性能模型尤其如此。一般来说，对于复杂的数据，模型越精密、越复杂就越好。然而，因为这些模型更加复杂，解释输入数据对输出结果的影响也就更加困难。

举个例子，假设要用非常复杂的机器学习模型预测某产品的销量。输入模型的数据是电视、报纸和广播的广告开支。这个复杂模型能够给出非常准确的销量预测，但是无法解释这3种推广渠道，即电视、广播和报纸，哪个对销量的影响最大、哪个更值得投入。

另一方面，更简单的模型可能结果没有那么准确，但是能够解释哪个渠道更值得投入。顾客必须有平衡模型性能和可解释性的意识。这很重要，因为如何在可解释性和性能之间取得平衡取决于目的，因此使用模型的人必须做出决定。

7. 那么…你有什么优点和缺点?

这是企业面试时常问的问题。在评估机器学习方案时，优缺点问题非常有用。如果有人推荐某个机器学习方案，一定要问问他们这个方案的局限性：

采用这一方案是否利大于弊? 该方案的局限性将来是否会影响其性能?

成功的关键在于了解自身弱点并成功地弥补弱点。缺乏这一能力的人总是失败。站在采用高效、可持续的机器学习方案的角度来说，了解其局限性对于其成功至关重要。

不仅如此，要求推荐者说明方案的局限性也能反映透明度的问题。这反映出推荐这一方案的人考虑有多细致、是否值得信任。

如你所见，识破谎言的关键之处就是不要慌张，大胆提问吧!询问、澄清、仔细审查所有不确定的东西。依靠这7条建议，你可以强化理解并全面评估机器学习方案。答不上来这些问题的推销者们，还不快快现身!

（编辑：我爱故事小小网_铜陵站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!