15

主动学习:如何用更少的数据做更多的事情?

 3 years ago
source link: https://www.infoq.cn/article/mXcck0AtszsjHlo5Mepa
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

本文最初发表于 Towards Data Science 博客,经原作者 Logesh Kumar Umapathi 授权,InfoQ 中文站翻译并分享。

如果说机器学习项目是冰山的话,那么位于水下的部分就是项目中的标签和其他数据工作。好消息是,像迁移学习和主动学习(Active Learning)这样的技术可以帮助减少工作量。

主动学习已经成为机器学习行业从业者的工具箱的一部分,但在任何数据科学 / 机器学习课程中,却很少涉及。在阅读 Robert Munro 写的书《 Human-in-the-Loop Machine Learning 》(译注:目前尚无中文版)后,帮助我正式形成了一些(并帮助我学习了很多)主动学习的概念,而这些概念我一直在机器学习项目中凭直觉使用。

本文写作目的是向你介绍一种简单的主动学习方法,称为“基于熵的不确定采样”(Uncertainty sampling with entropy),并通过实例证明其有效性。在演示中,我使用了主动学习,仅利用了 23% 的实际训练数据集( ATIS 意向分类数据集 )来实现与 100% 数据集训练相同的结果。

是不是迫不及待了?请直接跳到「演示」一节。想了解它是如何工作的?那就继续读下去。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK