阿里京东流量端体验策略之“相似图/相同类目”打散过滤策略

　　我是策略产品Arthur，5年大厂策略产品专家，全网最专业的搜广推策略产品干货博主，帮助你成就策略产品专家之路；今天接着写流量体验策略文章系列，这个系列主要是围绕消费者C端在媒体流量端来介绍的对应策略，我们已经讲完已购买和负反馈过滤豁免策略，今天来讲讲相似图与同类目打散策略，这个策略是从消费者C端直观视觉角度出发优化浏览体验的重要策略；如果有帮助到大家辛苦帮忙点赞、收藏以及评论一下，感谢大家对连续更新的支持；

目录：
1、相似图/同类目过滤策略问题背景
1、相似图/同类目过滤策略问题设计思路
3、对于相似图/相似图打散策略的总结

一、相似图/同类目过滤策略问题背景

1.1相似图/同类目过滤策略问题场景：

　　老规矩，介绍相似图/同类目策略定义之前，不知道大家是否在淘宝、京东中遇到过以下场景：

　“Arthur今天看中了一双鞋，就在京东搜索了一下该鞋的款式，等到退出搜索结果页面的时候发现在我的信息流推荐位满屏都是该款鞋，无论是图片的样式还是款式都是同一款，让我觉得推荐缺少了那么些多样性，虽然我知道我目前感兴趣，但是也不用对我进行信息轰炸吧，这样体验太差”，不光是图片相似，由上述场景还可以延伸到相同的类目上，我搜索了心相印卫生纸，就满屏给我推荐清风、品诺等等品牌的卫生纸、卷纸以及餐巾纸........

推荐位全屏熊猫dunk鞋

　　基于以上场景，相似图/同类目过滤打散策略应运而生，所以从这个场景我们了解到，虽然推荐系统对于召回、排序预估大部分的样本来源都来自于用户的行为样本，但是我们不能因为短时兴趣行为序列attention带来的pCTR偏高，导致推荐丧失了多样性了，推荐相关性很重要，但是同时平衡“推荐多样性”同样很重要，这也是前文关于“新品item冷启动”一文介绍关于E&E的文章目的，探索消费者用户的兴趣多样也是非常重要的点；

　　定义：相似图/同类目打散过滤策略是基于（自然/广告）推荐结果在精排环节eCPM /rankscore确认的情况下，在重排序环节对最终排序结果实现打散过滤的策略行为，保证最终在客户端APP（京东/淘宝）最终准确与丰富的多样平衡的策略；

二、相似图/同类目过滤策略问题设计思路

2.1 相似图/同类目过滤策略总体概述

推荐引擎算法链路

详细策略：

　　相似图/同类目过滤策略同样是在自然推荐/广告推荐系统在【重排序】环节，为什么是重排序环节呢？因为所有的排序结果将在前端给到用户进行呈现，前面的召回、粗排的结果都不是最终呈现给到用户面前item排序的结果，只有精排结束之后才能保证无论是广告排序eCPM/自然推荐排序rank的结果，所以最终的同相似图/同类目过滤策略都会发生在重排序的环节；

2.2 相似图过滤策略

相似图投放集中问题

还是拿上述case举例，我需要过滤相似图，我肯定是要找到具体的某个item前后左右坑位下图片相似性Similarity，然后把所谓的图片相似性可量化，最后把高于某个“阈值”相似的图片给过滤掉，例如我右上角出了Nike的这双球鞋图片那么我应该过滤掉后面的这个sku_id，我们在排序当中一般会把排在后面坑的item商品过滤掉，满足排序贪心算法最优解的原则；

问题：由于人类主观视觉很容易从图像中抽取出结构信息，计算两幅图像结构信息的相似性就可以用来作为一种检测图像质量的好坏；但是模型算法不能直接判别，因此我们就需要用到一些机器学习中对于相似图识别的处理方法来计算（类似的算法常用于指纹识别、面部识别打卡等场景）

常见的相似图方案有以下几种：

1）余弦相似度计算：将图片进行向量化vector处理，通过计算向量之间的余弦距离来表征两张图片的相似度；这种方式比较好理解，就是把相同尺寸的图片RGB通道数值化，然后去计算每个像素点位的三通道相似值，最后构建整体图片的距离；

2）直方图计算图片的相似度：利用直方图计算图片的相似度时，是按照颜色的全局分布情况来看待的，无法对局部的色彩进行分析，先吧两张图片如果转化成为灰度图，再计算其直方图时差距，然后在计算图片的相似度。

3）SSIM（结构相似度度量）计算图片的相似度：SSIM取值范围[0, 1]，值越大，表示图像失真越小。在实际应用中，可以利用滑动窗将图像分块，令分块总数为N，考虑到窗口形状对分块的影响，采用高斯加权计算每一窗口的均值、方差以及协方差，然后计算对应块的结构相似度SSIM，最后将平均值作为两图像的结构相似性度量，即平均结构相似性SSIM。

4）深度学习方法：《基于2-channel network的图片相似度判别》、《图像检索、深度感知测量方法》，其核心思想为深度特征提取+特征向量相似度计算；深度学习的方法更多是从图片特征语义进行解析，例如前景图是否同为钢笔/Nike鞋子，背景是否为纯色/户外，来理解两幅图片是否相似，而不是简单的通过图片的HSV或者RGB通道来判定，目前现在各家大厂都是用的深度学习方法来做相似图判定，准确率相对来说会更高一点；

得到相似图结果之后，策略产品需要与算法协定并实验【相似度阈值】实验，可以看上述图片中的Nike 熊猫dunk鞋子，右上角的图2和左下角的图3明显就更为相似，那么两图之间的相似值SSIM就更高一点，而图2和图4虽然也都是Nike dunk的鞋子，但是明显不如图3相似；因此相似度阈值门槛定在多高其实也就确定了平台对于相似图过滤的严苛程度，如果相似图定的阈值比较低，就会有大量主体item被误杀的风险，广告eCPM排序的最终结果大量被过滤掉，带来广告收入整体的下降；所以阈值定在多少，定什么合适是需要策略产品通过流量AB分桶的方式，确定广告CPM、CTR以及广告参竞率、消耗cost等指标得来的结果，做到效果平衡；

2.3 同类目过滤策略

相思类目推荐位过于集中问题

同类目过滤策略相对于同图过滤策略就比较的简单，属于在重排序环节对商品信息表进行内容读取，其中包含商品一二三级类目的value值信息，策略产品需要和算法通过重排序过滤实验，确认一个展示商品队列同一三级类目最多展示数量，例如当同一个队列中超出3个则过滤掉排序靠后的商品主体item，最终重排序结束展示到C端用户面前

三、对于相似图/相同类目打散过滤策略的总结

相似图/相同类目打散过略策略在核心作用上是希望丰富推荐系统的多样性指标（虽然CTR相关性很重要），让推荐系统的推荐内容让消费者C端用户有逛下去的欲望，提高整个推荐位的人群曝光坑位数，探索用户推荐兴趣；一旦推荐系统最终结果不进行打散，为用户呈现重复单一的内容，就失去了推荐系统秉持着“猜你喜欢”的定位了，既然需要去探索，就需要平衡相关性与多样性；这就是做相似图/相同类目打散策略的出发点与核心目标。

关于我：策略产品Arthur，5年搜广推策略产品经验的策略产品专家，从0到1搭建头部大厂的信息流广告平台，日均千万营收，精通自然搜推召回/排序，广告搜推出价/定向/创意/归因/竞拍机制/客户平台工具与实验策略，联系方式见见主页。
搜广推策略产品训练营：两位5年策略产品专家打造的专业策略课程，全课程从策略产品的分类，到自然搜推召回（规则类召回/user item CF协同过滤/深度学习向量召回）、排序（LR/GDBT）详细策略介绍，广告搜推出价（oCPX/Nobid/ROI出价）、创意（创意智能生成/程序化创意/创意优选）、广告归因（规则归因/算法模型归因（马尔科夫链、MTA）），以及平台工具策略（诊断工具/实验工具）详解，包括简历修改、面试辅导以及项目帮扶等，已助力100+策略产品学员。欢迎私信Arthur进行了解

阿里京东流量端体验策略之“相似图/相同类目”打散过滤策略

阿里京东流量端体验策略之“相似图/相同类目”打散过滤策略

一、相似图/同类目过滤策略问题背景

1.1相似图/同类目过滤策略问题场景：

二、相似图/同类目过滤策略问题设计思路

2.1 相似图/同类目过滤策略总体概述

2.2 相似图过滤策略

2.3 同类目过滤策略

三、对于相似图/相同类目打散过滤策略的总结

Recommend

Jailbreak Chat

6 Best Organic Mattresses and Toppers (2023): Nontoxic, Natural | WIRED

Driverless cars: What we've learned from experiments in San Francisco and Phoeni...

3+1 Common Things Kids Love to Believe in

Ford seeks to patent repo system that could drive your car back to the lender......

Sci-Fi Publishers Are Bracing for an AI Battle

美国众议院金融服务委员数字资产小组委员会将于 3 月 9 日召开首场听证会

PSVR 2’s No Man’s Sky is an immersive but overwhelming trip to space

Last call for Google Ads API v11

Wealthiest People in France (February 28, 2023)

About Joyk