19

系列文章|闲鱼商品理解之精品库建设

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU4MDUxOTI5NA%3D%3D&%3Bmid=2247486212&%3Bidx=1&%3Bsn=88b3026de7b3892eec75a908d0688a59
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

现状

闲鱼是一个基于C2C场景的闲置交易平台,每个用户既是买家也是卖家,并随着这些年的高速发展,一方面闲鱼的商品越来越丰富,在自由享受交易乐趣的同时也存在商品良莠不齐的问题,另一方面这些年闲鱼一直在深耕商品理解,沉淀了丰富的商品属性资产,因此我们希望针对这些基础属性资产进行分析处理,进行商品分层,挖掘出闲鱼的优质商品,形成闲鱼特有精品库。

问题

闲鱼虽然倡导轻发布,一张图片加一段描述一分钟就即可完成发布,但是通过引导用户售卖补全属性,图文算法分析等手段沉淀了不少商品属性和用户属性,其中商品属性包括基础属性和二手属性等,用户属性包括信用属性和服务等,因此我们核心要解的问题是:如何利用些结构化信息发现并定义优质商品,进而沉淀优质商品,构建闲鱼精品库。

整体架构

通过前文的介绍 我们知道了需要解的问题,从系统角度看,我们解决思路是以结构化信息为基础(包含商品和人属性),抽象出不同维度的指标模型,最终为商品打标,实现闲鱼精品库。进一步拆解下去,系统核心要解决两个问题

  • 如何定义优质商品

  • 如何沉淀精品标签

结合算法能力,工程能力,下游导购链路,我们梳理了闲鱼的精品库系统架构

jEnIFrf.png!mobile

商品理解(优质商品定义)

解决优质商品定义的问题,传统直接做法是直接使用深度学习网络DNN,SVM,GBDT等网络, 这种做法的好处能快速的达到效果,但带来问题是黑盒模型,运营无法获得输入,且后续指标准确率较难提升,而我们要跟运营持续协作,并在后续需要更深入的应用。因此我们采用另外一种解法:基于闲鱼知识库可解释的商品理解

通过对闲鱼动销高的商品结构信息分析归类,我们抽象出一些维度去定义优质商品,如商品信息完善度,价格指标,供需指标、卖家指标等,算法通过上述四个商品维度去分析商品信息,通过智能因子分析函数发现每个商品维度相关的关键因子,并通过仿真系统对这些关键因子组成的指数进行动销率回归预测分析,验证指数的有效性,通过循环迭代后形成信息完善度指数模型,价格指数模型,卖家指数模型,供需数据模型能及指数加权后优质商品分模型。

mmaymaV.png!mobile

特征计算&存储(精品标签沉淀)

有了优质商品定义模型,我们需要对闲鱼所有商品打标(包括安全负向标签),跟其它电商场景不一样的,闲鱼商品有个显著的特征:大部分是孤品,因此这里带来一个显著的差异:特征计算链路考虑实时计算和离线链路

yaeE7bR.png!mobile

实时计算

如上图所以,每当商品信息有变更,如用户编辑商品,新发商品等,都将会触发一次实时计算链路,数据计算是基于TPP平台实现的,TPP是集团内部算法开发和托管的平台,除模型计算外,还需要重点考虑安全问题,商品安全检测、用户安全检测等。在标签进下游HA3引擎及基础数据标签存储前,我们架设一个异构数据统一接入层,主要是负责后续各种不同来源的数据源,同扩适配器将各种数据统一化为Metaq消息,通过元数据中心完成统一的注册和管理,保证数据shcema的全局统一,便于后续特征模型的快速接入。

离线计算

二手商品随着时间推移,有价值衰减的情况,因此离线计算每天会将闲鱼的全量在线商品重新计算一遍,分为数据整合、数据计算,数据导入三块,过程涉及到计算量比较大,主要是基于ODPS大数据计算平台来完成。ODPS(MaxCompute) 是阿里巴巴自主研发的海量数据处理平台。主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。

全量增量相互覆盖问题

实时+离线带来一个难题:全量与增量的相互覆盖问题。例如T+1全量的导入时间从早上0点开始,2点结束,这期间不停有最新的增量数据写入,很可能出现1点增量数据在2点被离线数据覆盖,从而出现脏数据。针对这个问题,我们的解决思路是先把T+1全量数据写到备库并记下全量数据的截止时间,等全量回流完成后,再从截止时间开始回放期间的增量变更数据,直到追上最新的变更记录,然后再切换版本。几个步骤如下图所示:

aaaUVru.png!mobile这里我们的选择是iGraph,iGraph是集团内部一个大规模分布式在线图存储和检索服务,提供全量ODPS+增量消息的回流服务,原理跟上述类似。

服务能力

服务能力主要是根据下游应用场景抽象出来,重点分为这几块:数据在线查询能力:数据要实时的,要具备多维度查询能力,数据要足够的聚合,避免下游子业务频繁且无效的聚合加工操作,这里我们通过HSF接口服务来提供。消息订阅能力:优质商品实时变更消息服务,供下游业务订阅,做到上下游的数据联动。离线数据服务能力:提供天级、小时级、分钟级的ODPS离线数据,供下游数据加工处理。

aqmQJbi.png!mobile

业务层

通过闲鱼选品平台(马赫),运营同学配置圈选逻辑提供各种的投放玩法,给用户呈现不同的优质商品触达方式,如下图所示:

fEFbU33.png!mobile另外通过搜索推荐给用户提供精品库的个性化推荐服务,快速支撑商品侧的业务形态,如为价格指导提供闲鱼的二手价格锚点。

业务效果

通过商品分层沉淀出来的闲鱼的精品库,目前已支持上百种选品策略,用户的点击和购买提标都有较明显的提升效果,如在新用户首页购,如在新用户首购接入精品库,支持转化率提升近1倍,手机频道页的点击率提升20%以上,搜索优质价格标签透出,提升交买卖家转化率相对基准桶提升1%等。

展望

本文介绍一种基于对商品结构化信息的理解构建了一套闲鱼精品库建设方案,限于篇幅的原因,本文主要介绍系统的整体架构及几个关键点的解决思路,希望能给读者带来的一些思考和启发。后续我们会通过商品聚簇的方式来加深对商品的理解,如对价格的判断,另一方面我们会对接下游回收流程,使好商品能快速流通起来,提升闲鱼的平台价值。

RJ3aeiB.png!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK