3

实时程序化数据交换是数据交易所应关注的焦点问题

 8 months ago
source link: https://www.36kr.com/p/2581983981413761
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

实时程序化数据交换是数据交易所应关注的焦点问题

王建峰·2023-12-30 09:43
数据是最未被充分利用的商品之一,因此被低估。

“数据是新石油”这句话是Clive Humby 在 2006 年提出的,此后一直被广泛引用。然而,这种类比仅在几个方面有其优点(例如,两者的价值通常会随着提炼而增加),并且数据的更广泛的经济影响在少数科技和金融公司之外已经被削弱。但石油和数据之间的实际差异是根本性的。

最值得注意的是,石油是一种商品。它的质量是标准化的、可测量的,这使得不同来源的石油成为替代品,从经济学角度来说,它是一种“同质商品”,并且有一个既定的价格。尤其重要的是,石油是一种不可再生的资源,必须从地下开采。然而,数据是一种异构商品。它的种类繁多,每次出现的价值都无法客观衡量。当两方交换商品时,卖方必须设定价格,而买方必须确定其支付意愿。数据的两个属性使这变得复杂:

将相同数据出售给另一个买家的边际成本为零。生成数据的成本变化很大,但一旦存在,成本就会沉没。将其出售给另一个买家的过程是简单的复制行为,对于所有实际目的而言,复制行为的成本极低。

如果不“消耗”数据,就很难确定数据的价值。销售线索数据库只有带来实际销售才有价值。完全相同的数据集的价值高度依赖于买家或其预期用途。从这一点来看,数据实际上更接近于“体验商品”。

“数据是最未被充分利用的商品之一,因此被低估。”

为什么应该关心数据经济

区分第一方和第三方数据

我认识的人中没有人反对数据的重要性。但是,尽管“数据是一种资产”的说法已经变得相当普遍,但数据可能是最未被充分利用的商品之一,因此也是被低估的商品。

当大多数企业考虑数据时,他们会考虑他们拥有的数据。第一方数据 (1PD) 通常是从网站、CRM/ERP 系统、与客户的通信等收集的。一些第一方数据集比其他数据集更有价值:Google 的搜索和点击历史记录是其 1PD 数据库的一部分。

interlace,1

显而易见的是,现有的第三方数据 (3PD)(即您不直接拥有的数据)的数量比您的 1PD 大几个数量级。我要提出的论点是,大多数人没有意识到 3PD 对他们业务的价值。我们用一个例子来说明这一点。

检测垃圾邮件以及为什么 1PD 本身可能没有想象的那么有价值

您认为检测垃圾邮件时最具预测性的信号是什么?最常见的答案包括:拼写错误、语法或提及特定关键字,例如v1agra。一个稍微好一点的答案是“发件人是否属于您的联系人” ——不是因为它是真的您的联系人中的非垃圾邮件的有效发件人比您的联系人中的有效发件人多,而是因为它考虑了外部的数据源。电子邮件本身:您的联系人。

如果仅出于这个事情的目的,我们可以说检测垃圾邮件的最重要信号实际上是发件人域的年龄。一旦声明,这似乎很直观:垃圾邮件发送者经常注册新域,这些域会在短时间内被电子邮件提供商阻止。

为什么大多数人没有想到这个答案?因为发件人域的年龄不是“第一方数据集”的一部分,“第一方数据集”仅包含发件人和收件人的电子邮件、主题和电子邮件正文等内容。但每个对域名有所了解的人都会告诉你,这些信息不仅容易获得,而且是免费的。获取域名,前往域名注册商处,您可以查明其注册时间(例如 gmail.com 于 2023 年 12 月 29日注册)。

事实证明,如果您拥有的数据 (1PD) 通过其他人拥有的数据 (3PD) 进行增强,那么对您来说可能更有价值。

interlace,1

从垃圾邮件到量化交易

通过根据发件人域的年龄增强数据集,可以更好地检测垃圾邮件,可以想象有无数种方法可以应用相同的原理。以下是可以从地址找到的数据的简单示例。

interlace,1

当然,这并不是一个新想法。几十年来,对冲基金一直在使用“外部数据”。RenTech是最早利用卫星图像、网络抓取和其他创意来源数据集等替代数据来赋予其交易优势的公司之一。瑞银利用卫星图像来监控大型零售商的停车场,并将汽车流量与季度收入联系起来,从而可以在收益发布之前更准确地预测收益。

您大概可以猜到这是怎么回事。仅在美国就有超过 30 万个数据提供商,可能有数十亿个数据集。其中许多可以为您在尝试预测或分析的任何方面提供竞争优势。唯一的限制是你的创造力。

使用外部数据的主观价值

尽管外部数据对量化交易公司的价值是立竿见影且意义重大的,但其他行业的高管却迟迟没有意识到这一点。数据驱动的思维转变:考虑对企业来说一些最重要的预测任务。对于亚马逊来说,这可能是特定客户接下来最有可能购买的产品。对于石油勘探公司来说,这里可能是发现下一个油藏的地方。对于杂货连锁店来说,它可能是在任何给定时间点对特定产品的需求。

接下来,想象一下有一个神奇的转盘,可以利用它来提高预测任务的性能以及由此产生的业务价值。杂货连锁店大约有 10% 的食物因腐败而损失。如果他们能够更好地预测需求,他们就可以改善供应链并减少损坏。在毛利率约为 20% 的情况下,损耗每减少一个百分点,毛利率就会提高 0.8 个百分点。因此,对于像 Albertsons 这样的公司来说,预测需求的每一个百分点的改进每年都可能带来 6.4 亿美元的价值。替代数据可以对此有所帮助。

为杂货连锁店节省数亿美元的相同数据对于商业房地产开发商来说可能更有价值。然而,数据市场还无法提取该价值,因为它们距离实际的业务应用程序很远。他们必须为库存设定一个通用价格,而与库存的最终用途无关。

然而,外部数据已成功成为估计 50 亿美元的市场,同比增长 50%,而交易这些数据的市场代表了另一个 10 亿美元的市场。这仅代表潜在市场规模的一小部分,原因至少有两个:(1) 尽管每家公司都应该能够从 3PD 中受益,但只有分析最成熟的公司知道如何利用 3PD 来发挥自己的优势。(2) 那些敢于尝试的人因发现和购买 3PD 的过时流程而放慢了速度。让我们快速回顾一下广告购买流程来说明这一点。

程序化广告可以教会我们如何改善数据经济

广告购买流程的演变

10几年前,程序化广告购买仅占数字广告支出的一半以下。人们如何购买广告?他们告诉一家机构他们想要接触什么样的受众。然后,该机构查看了与他们合作的出版商及其“库存”(杂志页面、广告牌、电视广告时段……),并制定了在哪里开展活动以满足这些要求的计划。经过一番协商,公司与代理机构最终签订了合同。广告创意将被开发、审查和批准。广告订单将被提交,最终广告活动将开始运行。几个月后,该公司将收到一份关于该机构认为其进展情况的报告。

随着谷歌、百度的出现,普及了所谓的程序化广告购买。他们创建了自己的广告交易平台 ,将来自不同广告网络的多个发布商的广告资源连接起来。当用户执行搜索或访问网站时,它会进行实时拍卖,让所有广告商相互竞争,并选择出价最高的人来展示他们的广告。

就像这样,广告购买从长达数月的、涉及大量人员且透明度极低的考验,转变为既设定价格又即时衡量展示次数(有时甚至是转化次数)的实时交易。 。这种水平的速度、流动性和透明度导致了在线广告市场的爆炸式增长,程序化广告购买现在占数字广告预算的近 90%。

过时的数据购买流程

事实证明,今天购买数据比 20 年前购买广告还要痛苦。

interlace,1

发现:首先,需要认识到 3PD 对您来说非常有价值。还记得垃圾邮件的例子吗?接下来,您需要发挥创造力来考虑可用于增强 1PD 的所有可能的 3PD。您是否会考虑使用停车场的卫星图像来预测零售商的收入?然后你必须去所有的数据提供商并搜索你认为你需要的东西。您会发现大多数“数据市场”基本上只是对描述的免费文本搜索。接下来,您必须查看数据的模式,看看它是否包含您正在寻找的内容,以及您需要的粒度(例如,有时您需要每分钟的人流量,而不是每小时的人流量),并且具有正确的覆盖范围(例如,针对正确的日期范围或地理区域)。

采购:一旦找到您认为需要的数据,您就必须弄清楚如何采购该数据。您会惊讶地发现,这并不总是简单的“点击购买”事件。您必须与数据提供商交谈,了解数据许可证(您甚至可以将这些数据用于预期目的吗?),协商条款并签署合同。您可以对来自不同提供商的不同 3PD 重复该过程多次,这些提供商都有不同的合同、条款和许可证。

集成:最终您获得了所需的数据。您等待了几周,当您的数据工程团队与您的 1PD 一起加入它时,您才发现它实际上并不像您希望的那么有用。你花的时间和金钱都被浪费了,你再也不会尝试了。或者,更令人痛苦的是,您发现 3PD 确实给您带来了有意义的改进,并且您继续生产您的预测模型,只是发现您每小时需要新数据,并且您使用的数据源之一仅每周更新。如果您再试一次,您现在就会知道,除了根据架构检查粒度之外,您还必须考虑刷新率。

这个过程可能需要几个月到一年多的时间。为了打造一匹更快的马,一些咨询公司建议解决方案是雇用整个“数据采购团队”并与数据聚合商建立关系。

数据经济需要实时的程序化数据交换

我之所以引用程序化广告购买的例子,是因为我坚信数据经济可以以同样的方式发展,这将产生相对深远的经济影响。

发现和采购:考虑将所有数据提供者(“库存”)聚集在一起并合理化许可证的数据交换,以便以编程方式促进交易。数据消费者将提供任何 1PD 并表达他们感兴趣的任务(例如预测需求)以及他们对每个改进单位的价值(还记得需求预测的 1pp 改进对艾伯森来说价值 6.4 亿美元吗?)。数据交换将自动识别哪个 3PD 将为该任务提供可衡量的改进,根据数据消费者的预算运行实时拍卖,并最佳地选择满足其要求的 3PD 子集。这种与实际任务和相关价值的接近将解决现有数据市场的发现和价值提取问题,这些市场必须将数据视为商品,而不是良好的体验。

持续集成和改进:由于最有价值的预测任务本质上是连续的(例如,您需要定期预测需求,而不仅仅是一次),因此交易所将成为重复交易的中心,随着时间的推移,作为新的数据提供者,交易将提供更多价值消费者进入生态系统。每次执行预测任务时运行拍卖(而不仅仅是在您决定要购买哪些数据时运行一次)将确保新的数据提供者立即进行分发,并且数据消费者将从最新的数据库存和价格发现中受益。正如广告购买从离线和手动演变而来一样,数据交易也将变得实时、程序化,而且最重要的是可衡量。

interlace,1

这种“实时程序化数据交换”将为市场上的所有参与者提供经济激励:

数据提供者和消费者都将受益于可发现性的提高。数据市场存在一个长尾问题:数据数量巨大且种类繁多,使用现有方法几乎不可能发现任何给定任务/应用程序最相关的数据。

标准化条款和许可证,使交易能够以编程方式进行,将提高数据经济的速度和流动性,消除购买过程中的摩擦并向更广泛的受众开放。因此,整体市场将显着扩大。

通过根据每个数据消费者的主观价值在拍卖中设定价格,如果有多个具有可比数据的数据提供者,消费者可以获得更好的交易,并且提供者可以对对同一类型数据有不同评价的消费者进行价格歧视。

在一个平台上聚合数据消费者的需求将为数据提供商提供宝贵的见解。例如,考虑到需求方的所有任务和支付意愿,数据交换可以准确地推断出供应方缺少哪些数据,从而帮助确定数据获取和创建的优先级。请注意,合成数据提供商!

需要解决的难题

除了解决数据的可发现性和定价问题之外,这种程序化数据交换还需要解决许可和交付问题。

商业的

数据许可相对较新。据我所知,数据许可方面没有太多标准化。每个数据提供商都有自己特殊的许可证风格,与其他提供商不兼容。为了促进交换,需要简化许可。

数据市场可能担心脱媒。数据生态系统很复杂。对于数据提供商来说,这将是一个全新的分发渠道。他们痛苦地意识到可发现性问题,这种交换可能会向数百万新消费者打开市场,否则他们不会考虑替代数据。另一方面,数据市场和聚合器相当于唱片公司,可能希望阻止数据提供商直接访问程序化数据交换。

向“老”行业引入新的定价模式是很困难的。程序化交易所的流动性机制将显着扩大需求和供给侧,定价机制将优化价值捕获。总的来说,程序化数据交换对于数据提供商来说将是一场胜利。

技术的

语义类型检测已经停留在过去。为了自动识别可以连接哪些数据集,您首先需要了解数据的语义类型。例如,只是一个数字、邮政编码或货币吗?大多数语义类型检测都是基于启发式的,但还有更现代的方法。

无法强力发现数据。事实证明,有很多数据。要找出哪种 3PD 最有利于您的任务,最简单的方法是简单地“尝试”所有数据,以确定哪一个提供了最大的价值。值得庆幸的是,信息论和数据汇总等领域的现代突破使这个问题变得容易处理。

连接数据很困难。一旦您了解了语义类型并且拥有了一种机制来识别哪种 3PD 将提供有意义的好处,您就必须以有趣的方式将 1PD 和 3PD 结合起来。天气数据中气象站的经度和纬度可能与您要预测航班延误的机场不匹配。或者,客流量数据可能每小时生成一次,您需要确定是否要使用平均值、最大值或第 n 个百分位数作为每日汇总数据。

数据安全。数据提供者不喜欢泄露他们的数据,因为它很容易被复制。然而,有些技术(如联合学习)可以在保留数据访问和隐私的同时增强预测。

我相信实时程序化数据交换的影响将是深远的,人工智能的最新进展为上述挑战提供了解决方案。就我个人而言,我期待未来数据成为一种美好的体验,而不是仅仅是一种商品。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK