主动学习：如何用更少的数据做更多的事情？

本文最初发表于 Towards Data Science 博客，经原作者 Logesh Kumar Umapathi 授权，InfoQ 中文站翻译并分享。

如果说机器学习项目是冰山的话，那么位于水下的部分就是项目中的标签和其他数据工作。好消息是，像迁移学习和主动学习（Active Learning）这样的技术可以帮助减少工作量。

主动学习已经成为机器学习行业从业者的工具箱的一部分，但在任何数据科学 / 机器学习课程中，却很少涉及。在阅读 Robert Munro 写的书《 Human-in-the-Loop Machine Learning 》（译注：目前尚无中文版）后，帮助我正式形成了一些（并帮助我学习了很多）主动学习的概念，而这些概念我一直在机器学习项目中凭直觉使用。

本文写作目的是向你介绍一种简单的主动学习方法，称为“基于熵的不确定采样”（Uncertainty sampling with entropy），并通过实例证明其有效性。在演示中，我使用了主动学习，仅利用了 23% 的实际训练数据集（ ATIS 意向分类数据集）来实现与 100% 数据集训练相同的结果。

是不是迫不及待了？请直接跳到「演示」一节。想了解它是如何工作的？那就继续读下去。

Recommend

Windows IPv6 协议栈中的安全漏洞

编程体系结构(08)：Spring.Mvc.Boot框架

K8S节点异常怎么办？TKE"节点健康检查和自愈"来帮忙

Vue3+TypeScript完整项目上手教程

一行代码实现黑暗模式

五款顶级的Docker容器GUI工具

想成为全栈工程师，要做到哪几点？

PHP 与.NET 统治 Web 开发世界的八个理由

面试官：讲讲高并发场景下如何优化加锁方式？

微软提醒安卓用户：当心被新型勒索软件MalLocker.B攻击

About Joyk