2

都2023年了还有人创业做数据标注?还有VC和大厂看好??

 1 year ago
source link: https://www.qbitai.com/2023/02/42320.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

都2023年了还有人创业做数据标注?还有VC和大厂看好??

head.jpg思邈 2023-02-24 10:27:01 来源:量子位

成立仅1年,融资千万

邓思邈 发自 副驾寺

智能车参考 | 公众号 AI4Auto

都2023年,还有人创业做数据标注,而且迅速获得了一众客户和投资???

选的还是自动驾驶赛道。

数据标注,AI被深度学习复兴以来新增的产业之一,一度“有多少人工就有多少智能”的调侃,指的就是数据标注在行业中的重要性。

dd1b1787de3b47c6beee7d77acf524a7~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=BxY8rP6lwfSzsUTH1t%2Bo%2FGLxeNQ%3D

但这都2023年,数据标注还能玩出什么新花样吗?

这家叫恺望的新创业公司,带来了规模化人工+自动化产线的方法,并表示可以提供稳定又低价的服务。

稳定又低价,怎么实现的?

数据标注,本质就是给训练数据集打标签。标签可以添加到任何类型的数据中,包括文本、图像、视频、音频和3D点云。

有了标签后,可以帮助机器学习模型未来遇到从未见过的数据时,也能准确识别数据中的内容。

7775750e525c44f79de55d2ec080e916~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=O16A6Ahw%2BqvVOMQ4Lrl7111yy6Y%3D

但并非所有标注过后的数据,都能真正起作用。

其中涉及到不同客户对数据标注颗粒度、维度的要求,于是通常的痛点,会伴随着数据质量不佳、数量规模不足、标注成本高、数据生产流程不规范、甲乙方磨合周期长……

而为了解决上述问题,恺望提供的新思路是:规模化人力+自动化产线——可以实现成本降低超过20%。

一方面,“规模化人力”,主要是找“专业的人做专业的事”,用专门的在校学生,替换之前临时或简单培训就上岗的社会人士。

具体方面,恺望通过与高职院校合作,搭建数据学院,以此培养数据产线上需要的人。

a9067150be3943188b55bb52f1d3e3a6~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=exPd%2FBCKmg8fQX3W6F0uh9mJydw%3D

据说可以迅速上岗——前期对学生进行70%的通用培训,然后再培训操作和运营的流程。

目前恺望第一批300名学生,已在山东等地高职院校完成培训,他们希望今年能够培训超过1000位学生。

另一边,“自动化产线”,是指通过工具提效和管理优化,提升整体运作效率。

恺望将整个数据处理流程拆成了4个环节:需求、生产、管理、生态

93e142304db74c48a5db63848ab46a10~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=oTRM0gLXoj9jVfsadYqPL0CBkcw%3D

简单解释就是,当汽车传感器采集到了数据后,就输入到“工厂”里,后续他们的工作首先是解读客户需求规则、拆分数据任务。

然后将这些任务匹配给不同的人去做,例如有人专门负责标红绿灯、车道线,有人则负责标道路交通牌。

在生产管理过程中,可以借助飞书把握不同学生的工作进度;还能利用亚马逊AWS云服务完成数据传输,好处是原来要花上2天才能完成,现在则缩短为1.5小时

所以恺望的不同之处,就在于把自己与不规范的手工作坊区分开来,构建一套现代化工厂的运营模式。

0886d63d835a41d0a7de4b7b1693dc59~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=XRQieNa%2FrIjsI30XwXGygip8GUc%3D

工作人员不能是临时拼凑的,需要提前熟悉规则。工作流程必须是清晰有条理的,尽可能减少不必要的浪费,无论是时间还是成本。

有点像是数据标注行业里的富士康

恺望是谁?

目前行业内的技术方案,大多关注的是“预标注”这个环节的效率。

即数据标注的自动化程度。

a5b2d3b880d041368afb843570d509ce~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=T2fhvFCdmd4uLOQqULIsnv%2B8qRI%3D
△来自浙商证券研报

但恺望认为目前人工智能还不能完全替代人力,自动化数据标注会有一个发展过程,恺望CEO于旭就举例说:

就像是自动驾驶最终会走向L4、L5,但中间会经历L2、L3,但L2、L3的经验,可以使最终形态的自动驾驶更准确更科学的实现,人工智能一定是需要一个基于数据进行积累和建模、最终全面自动化和智能化的过程。这个不会是一蹴而就,而是需要逐步实现。

而且恺望产品项目副总裁张鹏也表示,“目前,数据标注以人工标注为主,机器标注为辅。而从整个自动驾驶行业的普遍水平来看,可以说95%的数据标注还是以人工为主”。

不过他们也给自己定下了目标,希望用3年时间,实现通用项目90%的自动化(即预标注占的百分比)。

恺望于2022年成立,创办1年就获得了不少知名客户,包括长安汽车、字节跳动、元戎启行、辉羲智能、地平线、寒武纪、易控智驾、中科创达、中交兴路、旷视、商汤等等。

7dbae9b232ce4a5e9d1660606f4d22cf~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=9wfnSVUxRHmNzHur%2BCgdTQYxr48%3D

创始团队由4人构成,其中创始人兼CEO于旭,硕士毕业于法国昂热大学,毕业后成了Uber中国的第4号员工,从0到1搭建起平台运营体系。其后就职于Momenta,参与构建了自动驾驶全链路数据的运营体系。此外于旭曾在字节跳动负责管理多个大型标注基地、千人规模大型数据外包渠道以及数万人的众包平台。

恺望合伙人团队,还包括奔驰金融运营流程管理专家、Monenta前数据平台技术负责人;同时还拥有覆盖自动驾驶商业、AI产品策略及算法领域的顾问团队。

融资方面,2022年9月,恺望完成了千万级天使轮融资,投资方包括辰韬资本、三一集团和溪山天使汇。目前,恺望已与三一集团在自动驾驶领域开展数据合作。

a7993334589d491fbb68034507ed19ba~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=XZ9fFRcEWSbUOpIW8LUheRU2A9k%3D

之所以在这个时间点,瞄准自动驾驶赛道成立数据公司,恺望称,主要是因为看到了庞大的市场需求

摆在眼前的事实是——2022年12月,我国新能源汽车零售渗透率达到29.5%,较2021年12月22.6%的渗透率提升7个百分点。

而且在大多数情况下,谈电动必谈智能,两个属性往往如影随形、相伴而生。

目前乘用车落地的自动驾驶大部分处于L2级水平,随着激光雷达成本的降低、逐渐量产上车,将会加速L3+的落地。

935a033811c64d66a041cafabfb8b4dc~tplv-obj.image?traceid=20230224102629E40E6497448E66253CB8&x-expires=2147483647&x-signature=dPcm%2FszNdVrfvrYzuLZsu3psdbM%3D

而L3级别以上的自动驾驶系统,对于计算机视觉技术的需求依赖度较高,系统需要对传感器采集的点云图像数据进行实时处理,构建车辆行驶环境,为预测和决策做依据。

恺望认为,在完全自动驾驶真正实现之前,仍需要大规模数据作为支撑,而这至少还需要10-15年以上时间。

而现在,“规模化人力+自动化产线”,是必经路线。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK