3

时空大数据及GIS在商业化选址中的探索应用

 3 years ago
source link: https://zhuanlan.zhihu.com/p/409091962
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

时空大数据及GIS在商业化选址中的探索应用

上海市大数据股份有限公司 高级数据分析师

本文以某国产新势力造车企业的选址项目为例,讲述时空大数据及GIS在商业化选址中的探索应用。

1. 整体架构

随着特斯拉和蔚来用直营模式在市场上逐渐站稳脚跟,更多车企意识到“用户思维”的重要性,因此他们也开始尝试改变销售模式,由批发转向零售,直面消费者。

直营模式的第一步就是要建立完整的营销渠道体系,其中包括销售门店选址、短期巡展商场选址、售后服务中心选址、品牌充电场站选址、线上新媒体广告投放选址、线下楼宇广告选址6个场景。

下图为利用时空大数据及GIS进行车企营销渠道选址的技术架构图,以新能源汽车轨迹数据、人口分布数据以及AOI数据为数据基础,对其进行清洗、处理、建模以及指标计算,通过数据了解目标群体客户居住在哪里、常去哪些商场、固定在哪里充电,从而帮助车企进行营销渠道选址。

v2-47257b5a1c1b886ca5810dbb3923961c_720w.jpg利用时空大数据及GIS进行营销渠道选址的技术架构图

2. 原始数据

2.1 新能源汽车轨迹数据

车企依据国家标准(GBT32960.1-2016)实时从新能源汽车上采集车辆运行数据并汇聚到当地新能源汽车数据中心以及北京理工新能源汽车国家监测与管理平台。

采集的静态车辆属性数据包括车架号、车辆品牌,车辆型号、车辆购买年月等;采集的车辆动态运行数据包括位置数据、整车数据、电机数据、电驱数据、电池数据以及报警数据;采集频率是5~30秒一条。

v2-21a320e2689d2b1a37b30e916f130f42_720w.jpg国家标准(GBT32960.1-2016)规定采集的数据字段

下图为某辆车某次出行的连续轨迹数据,这辆车从浦东新区的中环森兰国际出发,经过中环高架路到达虹口区的海怡花园。

车辆轨迹数据示例车辆轨迹数据示例车辆轨迹数据示例

利用新能源汽车数据中的车辆品牌、车辆型号、购买年月并结合动态位置数据,可以了解目标客户群体的时空分布特征从而赋能选址工作。

2.2 人口分布数据

下图为人口分布数据示意图,利用人口分布数据可以清楚地了解城市内居民的时空分布特征,在大规模线上广告投放中可以准确地瞄准人群聚集区域进行投放,以最低的成本尽可能触达到更多的人口数量,节省大量不必要的成本支出。

人口分布数据

2.3 AOI数据

AOI数据(Area of Interest)指的是互联网电子地图中的兴趣面,包含名称、地址、类别、经纬度坐标四项基本信息,主要用于在地图中表达区域状的地理实体,如居民小区、商场、写字楼、产业园区、综合商场等。

AOI数据示例

在营销渠道选址中使用AOI数据可以将非结构化的车辆轨迹数据以及人口分布数据落到具体的AOI实体边界中,以AOI为载体形成具体指标,例如某小区中高价值车辆的保有量、某商场中高价值车辆的停驻次数等,利用这些指标可以直接进行营销渠道选址。

3. 数据清洗

由于接入的车辆轨迹数据以及AOI数据存在空值率高、坐标偏移、坐标网格化、地理坐标系不统一、AOI实体缺失等问题。因此在使用数据之前需要进行数据清洗,清洗的步骤包括常规数据清洗、轨迹纠偏、网格化筛选、地理坐标系统一、AOI补充。

3.1 常规数据清洗

对车辆轨迹数据、人口分布数据以及AOI数据进行常规数据清洗,具体步骤包括:

  • 对车辆静态属性数据、人口分布数据、AOI数据进行去重处理、缺失值及异常值处理。
  • 剔除车辆轨迹数据中关键字段空置率的车辆数据,关键字段包括经纬度坐标、累计里程数、剩余电量
  • 剔除车辆轨迹数据中关键字段异常率高的车辆数据。经度正常范围是70°~138°,纬度正常范围是2°~55°,累计里程值正常范围是0公里~5000000公里,剩余电量正常范围是0%~100%
  • 针对车辆轨迹数据中剩余电量字段范围不一致的情况(有的车企电量最大值是100,有的车企电量最大值是255)进行一致化处理
  • 针对人口分布数据中人口数量值字段的缺失值或异常值,利用均值插值的方法进行补充
人口分布数据插值处理

3.2 轨迹纠偏

由于GPS定位精度受到硬件及周边环境因素的干扰,车辆轨迹数据偶尔会出现坐标点偏移的情况

车辆轨迹数据坐标点偏移

针对轨迹偏移的情况,计算待判断坐标点与前后两个坐标点均值之间的距离,如果距离超过阈值(阈值一般是100米,针对采集频率的不同需要进行调整),则为偏移点需要剔除。

计算待判断坐标点与的前后两个坐标点均值之间的距离

3.3 网格化筛选

由于经纬度坐标值位数较长,在传输过程中可能因为通信协议的限制被强制取整,例如121.342313->121.34。存在这样问题的车辆轨迹数据在空间上呈网格化的特征,这样的数据对于时空行为特征探查是没有意义的,因此需要识别并剔除。

网格化的车辆轨迹数据

实际操作中用group by的方法提取每辆车唯一的经纬度坐标值,如果唯一的经纬度坐标数量与轨迹点总数量的比值过小,则车辆存在网格化的问题。

3.4 地理坐标系统一

不同的车企会根据不同的地理坐标系采集车辆轨迹数据,坐标系不统一会造成数据分析结果的偏差,因此在使用车辆轨迹数据之前先要确保地理坐标系的一致。

车辆轨迹坐标系与底图不匹配的情况车辆轨迹坐标系与底图不匹配的情况

地理坐标系转换的方法可参考下面文章

3.5 AOI数据补充

在实际操作中发现AOI数据存在重要地物缺失的问题,如下图所示为厦门AOI数据,其中SM广场一期和SM广场二期都缺失,这会对选址工作带来偏差。因此,在使用AOI数据之前,需要对缺失的重要地物进行补充。

厦门AOI数据缺少SM广场一期和SM广场二期

这边利用高德地图POI数据检验AOI数据的完整性,如下图所示,蓝绿色面图层是AOI数据,点图层是商场类POI数据,其中红色点是POI存在但AOI不存在的商场,针对这些缺失的商场进行手动补齐。运用相同的办法可以补充住宅小区、写字楼、产业园区等其他重要地物。

利用高德地图POI数据检验AOI数据的完整性

批量获取高德地图POI的方法可以参考下面这篇文章

4. 数据处理

4.1 次行切割

车辆轨迹数据属于非结构化数据,体量大且不能直接进行指标计算。因此,在指标计算之前需要建模将连续的车辆轨迹数据转变为只有起点和终点信息(包含经纬度坐标、时间、行驶里程、电量)的次行数据。

车辆轨迹数据变为次行数据

下图为次行切割模型的具体实现步骤,大概思路是先根据点与点之间的时间差进行自然切分,之后针对每段轨迹进行固定长度窗口切分并判断每个窗口的状态(行驶、停驻、充电),最后对相邻同状态的窗口进行合并形成次行数据。

次行切割模型步骤

4.2 居住地识别

在商业化选址中潜在客户的居住聚集区域是重要的参考依据,因此需要对次行数据进行建模并识别车主的居住地。

下图为某辆车一段时间内的次行数据,可以明显地看到这辆车的数据以南花园为中心散开,所以推测上南花园可能是这辆车的居住地。

某辆车的次行数据

在实际操作中通过以下步骤可以识别出车辆的居住地:

  • 针对某辆车的次行数据,筛选17:00~24:00之间的到达坐标点以及6:00~10:00之间的出发坐标点,并形成一个坐标点的列表
  • 利用DBSCAN算法对上面的坐标点列表进行密度聚类,得到若干个该车辆的聚集停留点
  • 将聚集停留点与AOI数据进行空间匹配,在满足落到住宅小区前提下热度最高的聚集停留点就是该车辆的居住地。(可连续观测多个月数据来提高识别准确性)

4.3 空间匹配计算

通过建模得到车辆的次行数据以及居住地数据之后需要将这些坐标点与AOI数据进行空间匹配计算,最终将数字格式的经纬度坐标数据转换为具有实际意义的AOI实体。

例如某辆车某次的起点坐标是121.501601,31.23299,终点坐标是121.47663,31.232435,那么通过空间匹配计算我们就可以知道这辆车这次出行时从汤臣一品到人民广场来福士商场。

利用下图所示算法可以判断坐标点是否在AOI面内,或者也可以直接用Python中的GeoPandas库以及Java中GeoTools库完成这步计算。

判断坐标点是否在AOI面内的算法流程

利用上面的算法确实能够进行准确的空间匹配计算,但是对于大规模坐标点以及AOI面的计算效率较低,因此需要用技术手段来提高计算效率。

实际操作中,通过建立空间网格索引的方法来提高空间匹配计算的效率,用简单的浮点计算代替复杂的空间计算,下图为该算法的具体流程。

利用空间网格索引提高空间匹配计算的效率

5. 指标计算

经过数据清洗以及数据处理之后,已经将非结构化的车辆轨迹数据变成结构化的次行数据。接下来基于车辆行为日期类型、时间段、车辆价值、车辆购买时长6个数据维度进行计算,形成以AOI数据为载体的数据指标用于商业化选址。

数据维度包括5个方面:

  • 车辆行为:停驻车辆数、充电车辆数、居住车辆数
  • 车辆类型:乘用车、出租车、运营车、私家车
  • 日期类型:工作日、休息日
  • 时间段:23~6点、7~9点、10~16点、17~20点、21~22点
  • 月份:1月、2月、3月、4月、5月、6月、7月、8月、9月、10月、11月、12月
  • 车辆价值:0~10万、10~20万、20~30万、30~40万、40万以上
  • 车辆购买时长:0~1年、1~3年、3~5年、5~10年、10年以上

6个维度可以进行交叉计算得到对应的数据指标。

数据指标交叉计算

在计算单个AOI数据指标的基础上,利用GIS中的缓冲区计算工具分别计算目标AOI周围1.5公里、3公里、5公里、10公里、15公里范围内的各项数据指标和。

缓冲区计算

6. 选址场景

车企商业化选址共有销售门店选址、巡展商场选址、售后服务中心选址、品牌充电站选址、线上广告投放选址、线下广告投放选址6个场景,针对不同的选址场景需要用不同的数据指标进行赋能。

销售门店是车企最重要的固定曝光点,是车企在当地城市中的旗舰标杆。销售门店需要选在具有稳定且带有巨大流量的商场,选址需要用到的数据指标包括(以某高端品牌车企为例,下同):

  • 所有车辆的停驻车辆数(判断商场人流量是否充足)
  • 12个月的所有车辆的停驻车辆数(判断人流量是否稳定)
  • 40万以上车辆的停驻车辆数(判断高净值人群是否经常光顾该商场)
  • 1.5公里内40万以上车辆的居住车辆数(判断是否有大量高净值人群居住在商场周边,饭后闲逛能够有更多曝光)

巡展商场是车企的流动曝光点,相比销售门店成本较低且灵活性较强,一般一场巡展10天到半个月左右。巡展商场的选址逻辑和销售门店大致相同,在人流稳定的商场建立门店进行长期收割,在人流不太稳定的商场开展巡展进行定期收割,另外可以通过数据探查每个商场流量较高的月份并进行巡展。

售后服务中心是车企对已售出车辆提供养护及维修服务的场所,需要选在场地面积大且方便客户出行的区域。选址标准是以某城市所有售后服务中心为中心做15公里的缓冲区,所有缓冲区加起来需要覆盖80%的客户居住地。

售后服务中心选址

品牌充电站是车企给车主提供的增值服务,同时也是在潜在客户面前曝光的重要渠道。品牌充电站需要建立在两类地方,第一类是自己品牌车主聚集的居住地、工作地附近,目的是方便车主临时充电提升使用满意度;第二类是所有品牌车主聚集充电的地方,目的是提升在潜在客户(其他品牌车主)面前的曝光度。

线上广告指的是抖音、微信朋友圈等效果类广告投放,目的是获得更多潜在客户的电话号码。利用分时间段的40万以上车辆的停驻车辆数可以在时间和空间2个维度准确地找到目标客户群体,优化广告投放的时间和空间逻辑,避免大量不必要的成本支出。

线下广告指的是楼宇电梯广告、停车场道闸广告等。利用车龄5年以上的40万以上车辆的停驻车辆数等相关指标可以找到可能需要换车的高净值客户聚集的住宅小区。

7. 展望

  1. 未来可以利用更多数据辅助商业化选址,包括手机信令数据、商圈探针数据
  2. 利用时空大数据进行商业化选址的模式不仅仅可以应用于车企选址,零售行业、文旅行业都可以用
  3. 可以将本文所讲的内容打包成可以用的系统,开放给需要的人员使用(现在也正在做)

如果对本文中出现的内容感兴趣,可以私聊我进行讨论~

如果我的文章对您有帮助,请不要吝啬您的赞和关注,谢谢~


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK