3D模型分割新方法解放双手！不用人工标注，只需一次训练

Pine 2023-03-24 14:40:12 来源：量子位

未标注类别也能识别

丁润语投稿

量子位 | 公众号 QbitAI

3D模型分割现在也解放双手了！

香港大学和字节梦幻联动，搞出了个新方法：

不需要人工标注，只需要一次训练，就能让3D模型理解语言并识别未标注过的类别。

比如看下面这个例子，未标注的（unannotated）黑板和显示器，3D模型经过这个方法训练之后，就能很快“抓准”目标进行划分。

4904e136d0a04aafb7d9ff187afd5824~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=MCVD5836kUk3Wq9Paw14cxofqDo%3D

再比如，给它分别输入sofa、cough这类同义词刁难一下，也是轻松拿下。

5ef3b2b245cb4321becd808337ee5409~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=xCE3VrGrfnmD5E%2FYcZw9RUKUdec%3D

甚至连浴室（bathroom）这类抽象分类也能搞定。

a4f9c580bcc94969a86b1029c9204628~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=34T4P3VY1XD5%2BWfq6A1udZzWt5M%3D

这个新方法名叫PLA （Point-Language Assocation），是一种结合点云（目标表面特性的海量点集合）和⾃然语⾔的方法。

目前，该论文已经被CVPR 2023接收。

4dedd4b243e34fecbabc90e62cae41f2~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=GXwfX7OXjUhXy3%2BnsRea4wzFKVs%3D

不过话说回来，不需要⼈⼯标注，只进行⼀次训练，同义词抽象分类也能识别……这可是重重buff叠加。

要知道一般方法使用的3D数据和⾃然语⾔并不能够直接从⽹上免费获取，往往需要昂贵的⼈⼯标注，而且一般方法也⽆法根据单词之间的语义联系识别新类别。

那PLA又是如何做到的呢？一起来看～

其实说白了，要成功实现3D模型划分，最重要的一步就是让3D数据也能理解⾃然语⾔。

专业点来说，就是要给3D点云引⼊⾃然语⾔的描述。

那怎么引入？

鉴于目前2D图像的划分已经有比较成功的方法，研究团队决定从2D图像入手。

首先，把3D点云转换为对应的2D图像，然后作为2D多模态⼤模型的输⼊，并从中提取对于图像的语⾔描述。

4c298c99b57c48a99825ce995fcd74aa~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=XhBP3V1JJzc%2Bed72wDkeLFS8LOM%3D

紧接着，利⽤图⽚和点云之间的投影关系，图⽚的语言描述也就自然能够关联到3D点云数据了。

并且，为了兼容不同粒度的3D物体，PLA还提出了多粒度的3D点云-⾃然语⾔关联方法。

对于整个3D场景⽽⾔，PLA将场景对应所有图⽚提取的语⾔描述进⾏总结，并⽤这个总结后的语⾔关联整个3D场景。

对于每个图像视⻆对应的部分3D场景⽽⾔，PLA直接利⽤图像作为桥梁来关联对应的3D点云和语⾔。

对于更加细粒度的3D物体⽽⾔，PLA通过⽐较不同图像对应点云之间的交集和并集，以及语⾔描述部分的交集和并集，提供了⼀种更加细粒度的3D-语⾔关联⽅式。

这样一来，研究团队就能够得到成对的3D点云-⾃然语⾔，这一把直接解决了人工标注的问题。

PLA用得到的“3D点云-⾃然语⾔”对和已有的数据集监督来让3D模型理解检测和分割问题定义。

具体来说，就是利⽤对⽐学习来拉近每对3D点云-⾃然语⾔在特征空间的距离，并推远不匹配的3D点云和⾃然语⾔描述。

948d164f7af142448b5d2ec904668c60~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=JC93qlxWc%2FSnruMM4F%2FpdRHiYxY%3D

讲了这么多原理，那PLA在具体分割任务中表现到底如何？

语义分割任务超越基准65%

研究⼈员通过测试3D开放世界模型在未标注类别的性能作为主要衡量标准。

先是在ScanNet和S3DIS的语义分割任务上，PLA超过以前的基线⽅法35%～65%。

2d71347fdaa244edad0849fbc6c510c7~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=EWiIKYyQbYE7ZMhCeMJEHWR%2FfSM%3D

在实例分割任务中，PLA也有提升，对比之前的方法，PLA提升幅度15%～50%不等。

f22e1985ee6c4e36a12169a38338af3d~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=zbBDB6MtzAu%2FKZYJz5cKjA22Xvo%3D

这个项目的研究团队来自香港大学的CVMI Lab和字节跳动。

CVMI Lab是香港大学的一个人工智能实验室，实验室2020年2月1日成立。

研究范围涵盖了计算机视觉与模式识别，机器学习/深度学习，图像/视频内容分析以及基于机器智能的工业大数据分析。

dac199ecd97d4db59ad82f7483e7b20a~tplv-tt-shrink:640:0.image?traceid=202303241416216512C959B8952D9BD8B5&x-expires=2147483647&x-signature=wgYMhrpUauHe60s7YXRBdWPpNlY%3D

论⽂地址:
https://arxiv.org/pdf/2211.16312.pdf
项⽬主⻚:
https://github.com/CVMI-Lab/PLA

3D模型分割新方法解放双手！不用人工标注，只需一次训练

3D模型分割新方法解放双手！不用人工标注，只需一次训练

语义分割任务超越基准65%

Recommend

【事故】记一次意外把企业项目放到GitHub并被fork，如何使用DMCA下架政策保障隐私 - J...

D1net阅闻：微软Bing支持AI绘画了，输入文字就能出图

Wealthiest People in Japan (March 24, 2023)

D1net阅闻：GPT-4加强版Copilot发布

Toshiba accepts $15 billion buyout offer from private equity group | TechSpot

Toyota Announces 2023 Mirai With Up To $15K Of Complimentary Fuel

Concurrency in Go - A deeper look into Go's runtime scheduler.

比尔盖茨：AI 将如何减少不平等现象？

总是无法静下心读书？5个步骤教你专注阅读

Wealthiest People in Sweden (March 24, 2023)

About Joyk