3

5款AI生成3D模型产品盘点:究竟谁能引领3D游戏制作革命?

 1 year ago
source link: http://www.gamelook.com.cn/2023/04/515417
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

5款AI生成3D模型产品盘点:究竟谁能引领3D游戏制作革命?

2023-04-24 • 游戏美术

【GameLook专稿,未经授权不得转载!】

GameLook报道/在游戏开发领域,美术部门时常会扮演项目中的“吞金兽”的角色。在2D的卡牌、3D的开放世界等这类重资产的游戏品类中,美术组成员时常会占据核心开发团队的70%以上。

AIGC的极大发展让我们看见了美术生产力革命的曙光。在原画、icon绘制等领域,不少游戏公司已经部分跑通了开发流程,实现了降本增效。但在更加昂贵的3D资产创建方面,AIGC的应用似乎还距离我们十分遥远。

造成这一现状的原因是多层次的。首先是大模型赖以为生的养料:训练集。在2D领域,高质量的图片资源相对丰富,如Getty Images、Shutterstock这类商业图库网站拥有的高质量图片的数量普遍在亿级。但优质3D模型的数量则要少得多。

此外,游戏领域对3D资产的要求更高。随着高成本、3A类的开发项目越来愈多,游戏资产向高写实化、高精度发展,而目前的3D生成算法还难以生成高精度的模型。此外,3D图形的解剖结构要更加复杂、风格更多样。假若AI生成的模型出现表面不全、细节涂抹、结构扭曲的问题,后期由人工介入修改所需的工时都会更多,这无疑为整体的研发和训练都带来极大的阻碍。

由于人类的解剖结构相对固定,且人类角色的占比在3D游戏中较高,围绕数字人的相关3D生成解决方案已经在市场上有所出现。较为出名的产品包括Epic的MetaHuman、Reallusion的Character Creator等,网易的AI Lab此前也针对亚洲人的脸模给出更符合中国市场的解决方案。这些现有产品或多或少都针对人类脸模进行参数化的先验,技术挑战相对可控。

而在更加开放式的“文生3D模型”(text-to-3D)领域,如Meta、Google、OpenAI等AI领域第一梯队的公司都曾发起挑战。而在2023年的如今,这些产品的现状又是如何?GameLook盘点了5款最具代表性的文生3D产品,带领各位读者快速了解这一赛道的发展状况。

Luma AI

在近期的抖音等短视频平台,一类炫酷的“穿越机”视频开始走红:视频中,摄影机以第一视角绕着各种现实场景或是转圈,或是穿梭而过。而这些视频多半使用的是Luma AI的AI生成式3D产品来制作。

lazy.png

用户只需通过iOS平台的APP拍摄一段清晰的视频,就可将2D的视频转化为3D场景,硬件要求和技术成本都极低。而如上图可见,Luma AI的生成整体观感较佳。无论是图像生成质量还是产品的整体使用体验,眼下的Luma AI都远远领先同侪,接近于商用水准。

在技术上,Luma AI使用了在3D生成领域十分热门的NeRF(神经辐射场)技术,这类技术允许使用者在原始图像素材较有限少的情况下,通过深度学习获得多视角的3D辐射场。GameLook此前等报道过的3D生成化身模型RODIN也在训练中使用了类似的技术。目前Luma AI支持网页与苹果APP版本,并在上周加入了虚幻引擎插件,支持将生成的3D资产导入虚幻引擎中使用。

lazy.png

尽管优点众多,但Luma AI的使用场景也较为有限。首先,Luma AI并非是一个严格的“生成式”产品,其在形态上更接近传统的摄影测量法(Photogrammetry),即通过实拍扫描的形式进行资产创建。尽管大幅降低了实拍所需的硬件需求,但依然仅能对输入的素材进行“按图索骥”式的3D模型重建,而无法发挥AI发散性生成的优势。

此外,摄影测量法所生成的是可在传统3D工作流中使用的3D模型,包含网格与纹理等组成部分,但NeRF所生成的产物是“辐射场”。Luma AI允许用户将NeRF导入虚幻引擎中进行预览,但据反馈,用户无法对NeRF本身进行编辑,NeRF也无法对灯光等场景元素做出正常的反馈。

换而言之,Luma AI的3D生成效果较其它产品有明显优势,但如果希望NeRF真正在3D美术工作流中落地,我们还差好几块关键拼图,包括工业软件的兼容性配合以及更多基础技术的发展。

DreamFusion

DreamFusion是谷歌的研究人员在2022年9月公开的大模型,其特点在于其较早一批实现了“文生3D模型”的AI生成模式。

lazy.png

由于通过文字直接生成3D模型的困难程度较高,DreamFusion采用了借用2D图像中转的方式进行3D生成。具体来说,DreamFusion会根据文字prompt,使用一个预训练2D扩散模型生成一张2D图像、随后通过谷歌的分析模型CLIP将一个随机生成的NeRF模型与2D图像进行比对,根据比对结果进行最多20000次的优化,最终得到结果。

谷歌宣称,这一模型的优点在于并不依赖3D训练数据,实际预训练图像扩散模型的有效性。但尽管如此,作为一个概念性的实验模型,DreamFusion的生成精度尚可,但动辄长达数十分钟的单个3D模型生成速度是限制其迈入商用的最大劣势。

Point-E

Point-E是由OpenAI打造的文生3D模型,于2022年12月公开。GameLook此前曾对这一模型进行过专题报道。相较于其它的3D生成模型,Point-E将“高速生成”作为了其主打的卖点,其中字母“E”便是指“效率(Efficiency)”。

lazy.png

OpenAI声称,利用单张显卡,Point-E仅需几秒到几分钟就能产出一个3D模型。而英伟达的AI科学家Jim Fan在推特上表示,POINT-E的生成速度约能达到DreamFusion的600倍。

但相应的,Point-E在生成模型的精度上做出了不小的妥协。Point-E同样采用了以2D生成为中介的形式,利用扩散模型生成一个简单的点云,随后进行上采样,将其精细化拥有4000点的点云(point cloud)。GameLook在此前的测试中发现,以此方法生成的点云质量并不理想,且较容易出现比例扭曲的问题。

lazy.png

使用Point-E生成的“救护车”模型

作为领跑AI领域的公司,尽管OpenAI拥有涵盖多模态的AIGC产品,但如ChatGPT这类文生文产品眼下风头正盛,无疑抢走了大量的曝光度。作为游戏领域的观察者,GameLook热切期待OpenAI继续对3D生成领域投资,以加速3D生产力革命的到来。

PIFuHD

PIFuHD是一款较为早期的AI生成3D类产品,最早公开于2020年,由Meta的AR研发部门Reality Lab推出。这款产品采用的是机器学习技术,专注于3D的人体模型的创作,号称可仅凭一张图片重建3D的人体模型。

lazy.png

与前文所述的几款产品不同,PIFuHD生成的是可使用Blender等建模软件直接进行编辑的3D模型。相对来说,PIFuHD的生成质量尚可,尽管无法直接使用,但可被用作精细化建模的基础模型。

lazy.png

元宇宙的热潮虽然暂时消退,但其让不少厂商都意识到了虚拟化身(Avatar)的商业潜力,而PIFuHD可以被看作最早一批的虚拟化身生成应用。目前,如微软、影眸、Meta、Epic等国内外厂商都在加紧布局虚拟化身的AIGC生成。在“脱实向虚”的未来,AI虚拟人将会是大厂集中抢夺的重要赛道。

Magic3D

Magic3D是英伟达于2022年12月拿出的生成式3D解决方案,直接将谷歌的DreamFusion作为对标的对象。Magic3D采用了与DreamFusion类似的两阶段生成技术路线,但采用了不同的生成模型。

lazy.png

据英伟达的实验数据,Magic3D较DreamFusion的生成速度要快上2倍,生成的模型分辨率也更高。但生成单个模型所需的耗时依然在40分钟左右。

作为数字孪生、元宇宙、全真互联网领域的主要玩家,英伟达在2021年后开始广泛布局面向互联网下一阶段的生成式3D生产力技术和相应的云端基建。英伟达在今年3月的GTC 大会上公开了多项生成式AI基建服务,其中NVIDIA Picasso被定位为帮助用户生成图像、视频和3D内容的云服务。

目前尚不清楚英伟达是否在NVIDIA Picasso中采用了与Magic3D同款的技术,但据英伟达官方介绍,使用Picasso生成的资产可以直接导入3D工业软件和英伟达Omniverse,进行元宇宙、虚拟世界和游戏产品的开发。英伟达也给出了少量实际演示,使用Picasso生成的3D资产似乎已经可以胜任中等精度、小尺寸模型的3D开发。

lazy.png

结语

相较于较早跑通的2D文生图技术,更复杂的3D模型的AIGC模型开发在算法、训练数据、算力上都有着较为明显的劣势。相关的基础研究尚且还未给我们指出一条较为明确的道路,待应用层出现实际应用价值更高的AI产品,恐怕还需数年的时间。

本文列举了五款知名度较高的AIGC生成3D类产品。而从实效上看,Luma AI与英伟达两家为我们给出了较有说服力的产品。其中Luma AI的产品更具有初创公司式的独特气质,而英伟达的Picasso则更具巨头风范,出手便瞄准AI基建领域。

眼下,从新晋创业公司到顶尖巨头都对AI生成3D内容有所布局,这势必将掀起多层次的深层竞争。如果说人们对ChatGPT为代表的文字类AIGC是否能够引发生产力革命心存疑虑,那么假如3D AIGC成功落地,势必会对人类社会的创作和娱乐生态引发革命性的变革。

如若转载,请注明出处:http://www.gamelook.com.cn/2023/04/515417


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK