1

建模师也危险了?OpenAI公布Point-E,AI迈出“生成3D模型”第一步

 1 year ago
source link: http://www.gamelook.com.cn/2022/12/506085
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

建模师也危险了?OpenAI公布Point-E,AI迈出“生成3D模型”第一步

2022-12-23 • 开发

【GameLook专稿,未经授权不得转载!】

aaa-e1671759179447.png

GameLook报道/刚刚用ChatGPT在全球掀起AI狂热的OpenAI,时隔三周就又拿出了最新的“科技与狠活”?本周,来自OpenAI的研究者正式发布了该公司最新的文字生成3D模型实验技术Point-E,并在GitHub上公开了项目的源代码。这意味着这家AI巨头的业务版图在文字、音乐、图片等领域之外,又开辟了3D模型生成这片重要的疆土。

lazy.png

事实上,AI生成3D模型技术在市面上已经出现过一波井喷。在元宇宙概念如日中天的如今,多家行业巨头都认为在全真互联网时代,人类对的3D内容的需求将大幅膨胀,进而寻求借助AI帮助人类实现超高效的3D内容生产。谷歌在今年10月发布的DreamFusion和英伟达在11月发布的Magic3D等技术都是文字3D模型生成赛道上的前辈。如今OpenAI的入局,又会为这一赛道带来怎样的新风呢?

专注高效的Point-E:竹杖芒鞋轻胜马

但正如OpenAI在此次的论文中所指出的,市面上的文字生成3D方法无一例外都有生成速度缓慢的缺点,生成单个3D模型的耗时常须以小时记。而OpenAI所打出的差异化口号便是一个字:快!OpenAI声称,利用单张显卡,Point-E仅需几秒到几分钟就能产出一个3D模型。英伟达的AI科学家Jim Fan在推特上表示,POINT-E的生成速度约能达到DreamFusion的600倍。而POINT-E中的字母E所代表的正是效率(Efficiency)。

实现这一成果的方法是“剑走偏锋”。OpenAI的科学家结合文字生成图片和图片生成3D两类模型,提出了一类全新的3D生成方法。Point-E所产出的并非为可供直接渲染的3D网格,而是3D点云(Point Cloud)。

而在具体操作上,Point-E会利用三十亿大模型GLIDE将文字指令转化为一张”预览图“(Synthetic View),相当于利用文字生成图片技术为AI提供一张2D的参考范例。随后在该预览图的指导下,利用扩散模型生成一个1000个像素点的RGB点云。最终,Point-E以低分辨率的点云和预览图为条件,利用上采样(upsampling)技术将该点云进行进一步精细化,到达拥有4000个像素点的精度。

lazy.png

这一生成方式的缺点是十分明显。首先,OpenAI就在论文中承认,利用该方法生成的模型精细度不高。GameLook试玩了OpenAI放出的试用demo。这个demo所运行的是Point-E的弱化版本——但即便将这一点纳入考量,最终的生成产物还是过分抽象了。

下图是Point-E绘制的救护车,我们可以从大体上看出轮廓。

lazy.png

输入文字指令”An Ambulance“生成的救护车点云模型

这张则是利用”图片转3D“功能,在上传经典角色超级马力欧概念图后生成的点云和网格化模型——老任法务部看了直呼束手无策。

lazy.png

此外,OpenAI还表示,系统在解析预览图时可能会误解物体的实际比例,导致生成的点云模型比例失调。使用该方法生成的点云还需进一步网格化才可投入使用,这也是潜在的缺陷之一。

lazy.png

但另一方面,Point-E在完成它所专注的目标——快速——方面,可是一点都不打折扣。论文的统计数据显示,在使用单张V100显卡的情况下,DreamFusion等主流算法需要高达12-200小时的计算时长才能产出一个3D模型,但Point-E仅需1-1.5分钟就可利用文字生成3D模型。提升产出效率两个数量级。GameLook在试玩中发现,每张图片的生成时间通常仅为2-3分钟。

lazy.png

诚然,在这个阶段对Point-E的生成质量进行挑剔显然有些苛责,毕竟该技术和相关研究还明显处于早期,未经过多迭代——回望DALLE刚刚推出之时,也有不少人诟病其产出扭曲怪异。而在更标准的生产环境中,Point-E的产出还是相当标致的。

lazy.png

此外,即便”元宇宙时代“人类对3D环境的观感十分注重,但高效的产出同样也是各大厂商决胜的关键。OpenAI所采取的速度优化之道,同样也是启发未来的另一条重要思路。正如OpenAI在论文中所提的:”尽管生成效果相较最先进的算法并非最佳,但所使用的时间百不及一,这能够让应用场景变得更加可行……我们希望我们的论文能够抛砖引玉,启发文字合成3D模型领域的更多研究。“

业界热议:Point-E到底有多大能量

OpenAI的这篇研究一经公布,立刻在各大AI观察者圈子中引发了热议。前文所提到的英伟达AI科学家Jim Fan博士在看到Point-E后激动地表示:”2023年将会是强大的AI生成3D模型之年,而2D将会是他们的投影!“Jim Fan表示,他十分期待看到3D版的Stable Deffusion和Midjourney上线,未来的市场竞争将会十分激烈。

lazy.png

一名3D艺术家@zer0int1在安装了”满血版“Point-E后进行了一个小测试。他首先参考了一张原画并自己制作了一个3D模型,随后利用Point-E生成的模型网格化后进行了对比。他表示:”虽然我‘赢了’这场对决,但我不知道我应该感到高兴还是失望,毕竟我花了两个半小时才建好这个模型,但AI只花了两分半!“

lazy.png

在GameLook所浏览的各大论坛中,不少技术开发背景的程序员、艺术家等都对这项技术表现出了浓厚的兴趣,并前去体验了Point-E的demo版本。在Reddit的r/StableDeffusion板块,更是有网友高呼神迹:”等到2030年OpenAI还会干出些啥?我2022年的原始人脑袋已经完全想象不出来了。“

不过,与此同时也有一部分声音对Point-E提出了质疑,其诟病的点主要在于较低的生成精度和较低的实用度。但正如前文所说,这并非OpenAI的实验所要达成的目的。

我们离AI真正加入人类创作还有多久?看似近在眼前,但也似乎遥不可及。一方面,以GPT-3为代表的AI文字生成技术和Midjourney等代表的AI图片生成技术,似乎已经能够产出让人满意的结果了,且迭代速度之快超出了我们想象。但另一方面,AI作品在连贯性、可读性上依然无法与人类相提并论,Point-E的产出也显然还达不到商用效果,更不用提AI训练中所包含的版权保护等新时代法律问题了。

而随着相关产品的日渐增多,AIGC领域的竞争日益升高是我们所乐见的结果。只有通过不断地迭代,我们才可能在技术的碰撞之中不断突破技术的边界。GameLook有信心,AIGC一定会在不久的将来以更圆滑的形态与我们的内容生产融为一体。

如若转载,请注明出处:http://www.gamelook.com.cn/2022/12/506085


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK