推荐系统中稀疏特征 Embedding 的优化表示方法

QbENjqA.jpg!web

IRBRRfy.jpg!web

文章作者：张俊林新浪微博 AI Lab 负责人

内容来源：AI前线

注：转载请联系作者本人。

导读： 推荐或者 CTR 预估任务有一个很突出的特点：存在海量稀疏特征。海量意味着数量巨大，稀疏意味着即使在很大的训练数据里，大量特征出现频次也非常低，这往往是由于引入了大量 ID 类特征带来的。对于 DNN 排序系统，是否能够找到好的特征 Embedding 表达方式，对于系统效果是至关重要的。

虽然说，如何更好地表征稀疏特征对于模型的泛化能力至关重要，但是，关于这块的研究，除了经典的特征 Onehot 到稠密 Embedding 映射模式外，之前并未太受到重视，最近一年开始逐步涌现出一些相关工作。对于序列行为中的 Item Embedding，拥有怎样性质的 Embedding 表达方式是较好的？对于非行为序列的推荐模型，关于特征 Embedding，大家常规采用的做法是：将特征的 Embedding Size 作为超参，通过手工测试来寻找好的 Embedding 大小。然而，是否有更好的方式？这些都是悬而未决的问题。

本文将介绍两个与稀疏特征 Embedding 相关的工作，一篇来自于阿里妈妈发表在 DLP-KDD2019 的论文，回答了第一个问题；另外一篇来自于谷歌，尝试解决第二个问题。

PS：DLP-KDD2020 研讨会集中探讨大规模稀疏条件下可落地的推荐广告等技术方案，目前正在征集稿件过程中，欢迎赐稿。

1. 用户行为序列中的 Item Embedding

用户行为是推荐系统中很有价值的可利用信息，一般我们可以用户实施过行为的一系列物品作为某个用户兴趣的表征，通常采用遵循时间序的 Item ID 队列作为行为序列的输入。由于工业界应用物品数量巨大，所以大多数 Item 是稀疏的。而我们关心的一个问题是：对于用户行为序列中的 Item ID 来说，拥有什么性质的 Embedding 表达方式是好的？Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling 回答了这个问题。

Res-embedding 首先在理论上证明了：神经网络 CTR 模型的泛化误差与 Item 在 Embedding 空间的分布密切相关，如果用户兴趣相近的各 Item，在 Embedding 空间中的 envelope 半径越小，也就是说，相同兴趣 Item 之间在 embedding 空间中越紧致，形成的簇半径越小，则模型泛化误差越小，也就是模型的泛化能力越好。这个结论是很有意义的。因为可以用这一结论，在训练过程中约束 Item Embedding，让其满足一定条件，以此来增加模型能力。在此结论基础上，Res-embedding 提出了一个较为通用的方法：对于相近用户兴趣的 Item Embedding，我们让它由两部分叠加构成，一个是属于这个兴趣内的所有 Item 共享的兴趣中心 Central Embedding，另外一个是 Item 自身的残差 Residual Embedding：

Item Embedding=Central Embedding + Residual embedding

因为 Central Embedding 共享，是相同的，那么只要约束残差 Residual Embedding 的数值变动范围能在一个较小的范围内，自然就能保证达成上述目标，以此来泛化模型性能。下图比较形象地展示了这一做法：

qAfIfuQ.jpg!web

由图中可看出，如果采取这种约束方式，与不做约束相比，可以保证相近兴趣 Item Embedding 形成的类簇具备较小的半径，由此增加模型泛化性能。

但是，我们无法事先获知某个 Item 隶属于哪个用户兴趣，如何获得 Item 与簇中心 Central Embedding 的隶属关系呢？Res-embedding 提出在用户共访 Item 图上的三种具体方法，包括一种 GNN 的方法，这里不展开讲了，感兴趣的同学可以参考原文。

2. 非行为序列类推荐任务中的特征 Embedding

对于 CTR 任务来说，存在海量稀疏特征，导致 DNN 排序模型中绝大多数参数是由特征 Embedding 构成的。那么，如何更有效地优化特征 Embedding 表达对于模型能力就至关重要。

我们先设想一个比较完美的特征 Embedding 分配方案，如果它存在，应该是这个样子的：对于高频出现的特征，能够分配给它较长的 Embedding 大小，使其能更充分地编码和表达信息。而对于低频的特征，则希望分配较短的 Embedding，因为对于低频特征，它在训练数据中出现次数少，如果分配了较长的 Embedding，更容易出现过拟合现象，影响模型泛化性能。而对于那些极低频的特征，基本学不了什么知识，反而会带来各种噪音，那么我们可以不分配或者让它们共享一个公有 Embedding 即可。

上面说的设想，只是一个期望，那么具体怎么做才能达到这点呢？谷歌在 Neural Input Search for Large Scale Recommendation Models（NIS）文中提出用强化学习来实施这一目标。具体而言，不同的 Embedding 分配方案，形成了搜索空间，它使用 ENAS 来在搜索空间中找到最佳的 Embedding 分配方案。细节不表，只说思路，下图展示的例子基本能够说明问题：

Y3MJ7fY.jpg!web

常规的特征 Embedding，一般是给所有特征一个固定大小的 Embedding Size，而为了能够更灵活地表达不同的 Embedding 分配方案，NIS 把特征 Embedding 二维空间切割成 Block，如图中 (a) 所示，纵坐标是特征维度，比如共有 10 Million 个特征，则划成 1M/2M/2M/2M/3M 几段，而横坐标则是 Embedding Size 维度，最长允许 256 bit，按照 64 bit 为单位，划分成 4 段。这样就形成了 Embedding 的二维 Block 结构，不同的 Block 组成，就构成了不同的 Embedding 分配方案。

常规的 Embedding 方案，一般 Embedding Size 是个超参，需要手工去尝试，而 NIS 也可以提供最佳 Embedding Size 的搜索，就是图中 (b) 所示，从左上角作为起点，划出各种红色矩形框，不同大小的矩形框就是不同的分配方案。纵坐标里红框外的特征共享同一个 Embedding，等价于没有给它分配，而分配了 Embedding 的所有特征，Embedding Size 是相同大小的。所以对于这种情况，ENAS 的决策点在于：哪些特征值得分配空间，以及最优的 Embedding Size 应该是多大。

尽管这样能够代替手工试探 Embedding Size，但是仍未能达成完美 Embedding 分配方案的需求，我们还希望高频有效特征，能够分配更长的 Embedding Size，而信息含量比较少的特征，则只分配较少 Embedding Size 甚至不分配。在这个 Block 框架下，如何达成这一点呢，参考图中 (c) 图，我们只需要在 b 的基础上，在列也就是 Embedding Size 维度，进行多步决策即可，首先对于第一列 64 Bit，划出一个矩形框，代表 1M+2M 的那些特征，分配了 64bit 的 Embedding 空间，每一列依次这样做决策，即可实现不同特征分配不同长度的目的。比如图中所示，进行了 4 步决策后，1M+2M 的特征，分配了 64*3 个 bit 的 Embedding Size，而剩余的特征，则分配了 64bit 的 Embedding Size。如此这般，即可实现我们希望达成的目标。

我们可以分析下，图中 (c) 方案的决策或者搜索空间有多大，很明显每一步有 5 种选择，有 4 个决策步骤，所以决策空间大小为 5 的 4 次方，就是说有这么多种分配方案，而 ENAS 通过某个分配方案在验证集数据下的 AUC 评价指标表现，以及方案耗费 Embedding 空间大小，来评估每个决策方案的优劣程度。我们肯定是鼓励验证集合指标表现好，耗费空间少的方案，而强化学习的 Reward 就是这个思路来设计的。通过这种模式，即可设计强化学习方案来寻找出最优的 Embedding 方案。而试验结果也说明了通过这种方式可以较明显地提升推荐模型的泛化能力。当然，应该有其它的具体实现方案，而很明显，如何实现上文所述的完美分配方案，是很值得探索的方向。

上面介绍了两种稀疏特征 Embedding 的优化思路，两者其实也是可以结合的。而探寻更好的稀疏表达方式，我相信对于 DNN 推荐系统来说至关重要，是值得花精力深入探索的。

今天的分享就到这里，谢谢大家。

如果您喜欢本文，欢迎点击右上角，把文章分享到朋友圈~~

社群推荐：

欢迎加入 DataFunTalk 推荐系统 交流群，跟同行零距离交流。如想进群，请加逃课儿同学的微信 ( 微信号： DataFunTalker ) ，回复： 推荐系统 ，逃课儿会自动拉你进群。

DLP-KDD Workshop 介绍：

DLP-KDD 作为数据挖掘、机器学习领域学术盛会 KDD 的下设 workshop，由阿里发起，这届 workshop 由来自阿里巴巴 / 腾讯 / 新浪微博 / Google ( DeepMind ) / Facebook / 微软 / Roku，以及上海交通大学 / 犹他大学等工业界 / 学术界资深同行组成主席团，旨在促进深度学习在广告、推荐、搜索场景下的应用与业界交流，录用文章的工程性、实用性很强，推荐算法工程师同行和学术界的研究者们积极参与。

DLP-KDD 2020 的征稿结束日期是 2020 年 5 月 20 日。

文章作者

▬

vYrmmyQ.jpg!web

张俊林

新浪微博 | AI Lab 负责人

中国中文信息学会理事，中科院软件所博士。目前担任新浪微博机器学习团队 AI Lab 负责人。在此之前，张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队，以及在百度和用友担任技术经理及技术总监等职务。他是技术书籍《这就是搜索引擎：核心技术详解》（该书荣获全国第十二届优秀图书奖）、《大数据日知录：架构与算法》的作者。

——END——

文章推荐：

推荐系统技术演进趋势：召回->排序->重排

关于我们：

DataFunTalk 专注于 大数据、人工智能 技术应用的 分享与交流 。发起于2017年，在 北京、上海、深圳、杭州 等城市举办超过 100 场线下沙龙、论坛及峰会，已邀请近 500 位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章 400+ ， 百万+ 阅读， 5万+ 精准粉丝。

一个在看，一段时光！ :point_down:

社群推荐：

DLP-KDD Workshop 介绍：

文章作者

▬

张俊林

——END——

Recommend

10种快速排查无线AP故障的方法

微服务到底该多大？如何设计微服务的粒度？

技术讨论 | 利用Python程序实现某OA系统的自动定位

Linux下分析bin文件的10种方法

2019年数据泄露调查报告

测量JavaScript函数的性能的简单方法及与其他方式对比

Port Knocking

A Standalone Linux Kernel Module

在 Go 中使用微服务架构的好处

Inside std::function, part 2: Storage optimization

About Joyk