20

行业知识图谱在贝壳的应用实践

 4 years ago
source link: https://www.infoq.cn/article/BpfhuI7A1MetR0CPV4xR
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

导读:现如今传统行业纷纷拥抱互联网,将业务逐渐线上化。但由于传统行业的数字化程度不高,以及信息流通速度比较慢,导致难以快速了解到市场发生的变化以及自身所处的位置。而行业知识图谱技术通过合理的引入内部和外部数据,并进行充分的融合和挖掘,可以清晰的看到行业整体的发展趋势,更好的赋能传统行业的进一步发展。

本文将从以下几个方面进行阐述:

ymmAfaA.png!web

为什么要做行业知识图谱

ZB3ABvq.png!web

首先回答下上面的三个问题:

1. 我是谁

UJZZfmz.png!web

通过对公司内部数据,如业务流水交易数据,行为数据等进行分析,可以准确的了解到自身的发展状况。比如对贝壳找房的相关内部数据分析,可以知道目前的门店数有 13000 多家,以及具体的体量规模,挂牌交易量和覆盖人群等情况。但仅内部数据难以准确的描述公司在整个市场中的位置。

2. 我在哪

nQZnYfj.png!web

通过引入外部数据,可以定量化的描述行业整体的发展状况,从而了解自身所处的位置。比如通过业界对贝壳的评价,以及一些市场行业数据的分析,可以得到贝壳的交易规模和房源挂牌量都是业界第一。从横向维度上进行比较,即与房产中介和房源平台对标的情况,可以知道贝壳找房现为业界领头羊;从纵向时间维度上来看,可以对比十年前的自己和竞争对手与现在的自己的变化情况;从数据上来看,比如门店挂牌量和门店带看量可以反映经纪人作业的情况,或者通过区域门店与 GMV 的占比来进一步明确自身的市场定位。

3. 我去哪

n2UFVfA.png!web

通过融合后的行业数据图谱对行业整体进行分析,可以清楚的看到市场潜在的增长空间和增长方向,从而更好的设定自己的发展目标和价值追求点。比如贝壳找房的愿景是服务 2 亿家庭的品质居住平台。

行业知识图谱解决问题的思路

1. 做什么

UzuiQrV.png!web

经过自我剖析和了解市场后,可以制定明确的发展目标和具体实现的步骤、方案,以及合理的效果评价,从而形成一个正向的循环过程。

zQ7NFbZ.png!web

举例来说,通过行业图谱,明确了贝壳找房发展的价值空间,如房源量预计可以年增长 11%。基于此便可以制定公司层面的核心目标,比如 GMV 的年增长率。再然后到具体的业务部门,为了促进 GMV 的增长,可能需要提高差异化的房源增量线索供给。进一步的,依据业务目标就可以制定技术目标,即搭建我们的情报分析平台,以及引入更多的数据。

2. 怎么做

首先需要有一套知识图谱技术应用的框架:

Eveqmmr.png!web

具体有:

  • 智能问答:比如对话助手,智能客服,和经纪人的知识赋能。
  • 智能推理:基于图谱的关联关系进行推荐搜索,并给出排序理由,以及利用智能推理实现文本生成。
  • 社区发现:有风控预警,用户画像,和知识融合。

有了技术平台后,便可以构建情报系统。包括提供给决策者或作业人员使用的提效工具,以及线索增量和大盘决策等应用。

3. 做啥样

通过算法,数据和应用,构建起整体的技术平台:

v6fm6ry.png!web

重点是要评价目标的达成效果和目标设定本身。从而解决垂直领域在情报上的欠缺。

行业数据引入的逻辑和方法

zMRZFbY.png!web

为了构建行业知识图谱,需要引入的外部数据有以下五个方面:

  • 对标竞品:竞争对手的产品情况。
  • 专业内容:房地产政策,如金融,原材料,宏观经济情况。
  • 上下游:开发商,物业,建筑商等。
  • 环境周边:医院,学校等 POI 点
  • 用户群体:长租住户,短租住户等

数据加工的过程和实体融合

rENVZfU.png!web

通常引入的不同来源的数据格式多种多样,因此需要经过数据清洗和实体融合的过程。对于贝壳找房来说,重点融合小区,楼栋,门店,指标体系这几方面的数据。

小区的融合:贝壳目前的覆盖的小区有 40 多万,只占到 70% 左右。通过数据融合,得到全国小区 73 万,准确率有 98%。从而确定贝壳在小区维度之后的发展方向。

门店的融合:因为成交数据难以获取到,通常采用门店数据量的对比间接评价与竞品之间的价值比例。

行业图谱的建立和情报分析的过程

1. 行业图谱的建立

EvQjqmA.png!web

目前,贝壳构建好的行业图谱包含的三元组数量有 480 亿。实体类型有经纪人,门店,学校,公园,房源,购物中心,幼儿园等 140 多个类别,主要采用其中高频的 60 多个。关系数量有 230 个,加上属性有 1800 个左右。目前采用的存储平台从以前的 Neo4j 和 JanusGraph,逐渐迁移到 Dgraph。

图谱建立的难点在于如何构建图谱的关联关系,因此需要相关的业务专家支持才能做好实体的属性。另外,通过在公司层面建立图谱编辑平台,从而统一不同部门的所构建的图谱本体。

2. 情报分析的能力

jmemQfN.png!web

通过构建好的图谱,可以大大提高情报分析的能力,主要包括三个方面:

提效:包括报盘匹配和门店选址两个应用。报盘匹配是将成交的房源与具体的门店进行关联,之前主要由经纪人来完成,现在通过图谱,可以实现 90%-80% 的准召率;门店选址是通过对某个区块内的门店数,商业体,人流量等进行加权计算,从而得到给定区域可以容纳的商家数,以及最佳选址。该功能目前还在研发中。

增量:由于某些小区没有在内部挂牌,或者地址不准确,可能导致搜索没有数据,从而不能进行相应的关联推荐。但通过情报系统可以了解到其他商家挂牌的小区,从而更好的辅助经纪人作业。

决策:GMV 数据通常不能直接得到,但可以通过挂牌数,门店数和经纪人作业情况等数据来模拟得到 GMV 数据,从而为贝壳的进一步发展给予指导。

行业知识图谱在智能应用上的作用和表现

RBBzuqJ.png!web

目前基于贝壳行业知识图谱开发的应用有:

小贝助手:IM 场景下基于三元组的知识问答。当经纪人接受多个客户的同时咨询时,可以对客户问题进行相应答案的提示,从而提高经纪人的回答准确率,为经纪人提效。

搜索效果:当搜索不到任何结果时,可以推荐对应的站外热度,相关房源和对应的地址。

AI 讲房:主要是 VR 看房场景的文稿自动生成。

今天的分享就到这里,谢谢大家。

作者介绍:

孙拔群,贝壳找房行业知识图谱负责人

本文来自 DataFunTalk

原文链接:

https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247498789&idx=1&sn=b41dc6bcc64a56b1f7f4ae18810ba980&chksm=fbd74e49cca0c75f1bb4cfde02c6f4d797731d7cb1207dcad67167ec1bfadc58cd7b49ff8fb7&scene=27#wechat_redirect


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK