3

大咖论战AIGC:如何在AI热潮中乘风破浪

 1 year ago
source link: https://www.8btc.com/article/6830138
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
2023-08-18 09:45

大咖论战AIGC:如何在AI热潮中乘风破浪

来源:雷锋网

作者:董子博 王悦

原标题:《AIGC:热潮之下,前沿在哪?丨GAIR 2023》

从画图到写诗,从文案到制表,从PPT到写代码,十几个月以前,如果有人说,这些工作都可以用 AI 代劳,相信的人恐怕寥寥无几。

然而科技发展的起速却总是爆炸性的,2023年还远未结束,生成式 AI 的风潮就席卷了整个科技圈,让人无不心驰神往,趋之若鹜。

在由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办的第七届 GAIR 全球人工智能与机器人大会上,AIGC 领域的各路大牛齐聚在新加坡乌节大酒店,向世界分享他们在生成式 AI 领域的一手信息和最新认知。

此次参与 GAIR AIGC 和生成式内容分论坛的发言嘉宾有:

南洋理工大学计算机科学与工程学院助理教授,潘新钢
joinrealm.ai 创始人,蔡丛兴
新加坡 Help&Grow 社群发起人,王桐
荔枝集团 CTO,丁宁
南洋理工大学高级研究科学家;Deepir Inc. 创始人,吴鹏程
腾讯海外游戏发行算法中心主任,郎君

在当下炙手可热的 AI 赛道,如何保持清醒的头脑,在技术、产品和商业模式上精研革新?与会嘉宾们又有哪些真知灼见,让他们能够在生成式 AI 的热潮中长风破浪?

南洋理工大学潘新钢:视觉内容关键点拖拽,我们没有选用扩散模型

提到 AIGC,在当下的赛道,所有人第一个总会想起在海外评价颇高的 MidJourney,和它背后的技术支持——扩散模型。

FlmkZY8s92sWAUn_oIXIfLewEfS0

而来自南洋理工大学计算机科学与工程学院的助理教授,曾在港中文师从汤晓鸥教授的潘新钢,却在他最新的“视觉内容关键点拖拽式编辑”中,果断放弃了扩散模型,而是使用了一项更“老”的技术——生成对抗网络(GAN)。

不少人看到了 AI 生成图像的强大能力,就认为 AIGC 的时代已经来临;而潘新钢却发现,“生成图像”往往不是用户创作过程的最后一步。

后续对图片的调整——尤其是对 AI 生成的画面元素往往充满不确定性,要满足用户的需求,就必须得让画面中的各个元素可以在后期被用户微调。

比如 AI 生成了一只很逼真的狮子,用户如果想要狮子的头转一转、移动它的位置、甚至改变狮子的表情,以当下的产品形态就很难完成。

这些操作听起来简单,但都是关于物体空间属性的精细控制,在技术上还面临着巨大的挑战。

过去曾有方式是沿袭文生图的思路,去根据文字的指引编辑图片——比如“让狮子的鼻子向右移动30像素”。

但这个解决思路也存在问题:

一方面,是文字模型对于物体空间属性的理解必须足够强大,才能满足用户不一而足的编辑需求和方式,让交互更直观;

另一方面,对于语言模型来说,它很难精确理解图像中的长度和尺寸,这也给视觉内容编辑带来了不小的麻烦。

交互层面,对于用户来说,最直觉、最易用的,无疑是拖拽式的交互;而从技术实现层面,用户只需要指定一个红色的抓取点和蓝色的目标点,由 AI 把红点所对应的图像的语义的部分,移到蓝点的位置,就能达到对图像空间属性的编辑的效果。

Fm5fS4d-rO7WB_XQ2lNJYDw2qtFF

在过去,也有人开发过类似的功能,但通常需要对所要编辑的图像进行网格化,并且对物体的高度有一定的假设——对图像的编辑不过是对原图2D的扭曲变形,没法生成新的内容。

既要精细,又要有生成内容,潘新钢在做技术研判时并未采用当下最热的扩散模型,而是选用了生成对抗网络的技术。首先,是 GAN 所描述的图像空间非常连续,比扩散模型连续很多;其次 GAN 的 comtact 的隐空间非常适合编辑的属性。

而随着潘新钢团队研究的进一步发展,他们又在原有基础上支持了多点编辑,可以让图像内的物品姿态改变,重新设计一款车的外形、或改变车的视角,让一只小猫睁一只眼闭一只眼,改变人像的发型或表情、姿态或衣服长短,让使用者能更方便地对图像进行编辑,甚至可以以这个方式,来完成视频内容的生成。

FjPM4bnn32rgUp8iTQXQHk9YyaDD

当下这个工作已在 GitHub 上开源,并且获得了32000个 Star。

而未来,把 GAN 和扩散模型结合,是潘新钢对于正在完成工作的一个愿景——既有扩散模型的生成能力,又有 GAN 在图像编辑上的优势,同时也或许可以将这些能力运用到视频和 3D、4D 内容中,让未来的AIGC 更智能、也更易用。

joinrealm.ai 蔡丛兴:做基于 AIGC 的社交网络

从美国加州南湾硅谷的山景城而来,joinrealm.ai 的蔡丛兴有一个做AIGC社交网络的梦想。

FoD45uXch0OS4HOzqbCAbnclPVP7

2016年左右就加入 Snapchat,在公司负责短视频的产品开发,蔡丛兴经历过短视频行业的超高速发展期。而在 TikTok 无有争议地在海外成为了现象级产品之后,蔡丛兴又动了别的心思:

“我们觉得,在生产式短视频内容的赛道上,大家已经朝着某一个方向发展;而未来,在生成式视频上,产业一定会有一个新的突破。”

于是,蔡丛兴和朋友一起,创办了 joinrealm.ai。

蔡丛兴认为,AIGC是一个特别宽泛且抽象的概念,而 joinrealm.ai 的方向,主要是介于“直接提供API”和“完成人机交互革新”的中间地带——对于内容创作商业模式的探索上。

“为什么内容创作这个模式很重要?基于我们对于短视频的这个过去十年的观察,很大的一个变革,实际上是因为智能相机的出现。智能相机的普及,很大的程度上它不仅仅是给了每个人一个手机,而是给世界提供了几十亿个移动的基础设备。”

从“word”到“story”,是 joinrealm.ai 创业的一个核心关键——借由AI,用户能把自己脑海中的内容呈现成图像,就如同一个“思维的相机”。

FnYHVWbVW0TDURruqSmm27Q9judN

而要想达到这个效果,蔡丛兴在 joinrealm.ai 的探索中发现,还有许多问题亟待解决:

首先,是 Prompt 和自然语言的差异仍然存在——Prompt 归根结底还是一种大众难以直觉理解的程序语言,用户仍然要经历大量的“尝试-失败-尝试”的步骤,才能生成出他们想要的内容;

其次,就是基础模型在今天仍然并不能完全满足 AIGC 用户的需求,以 Stable Diffusion 为例,新用户愿意分享生成内容的比例,在今天大概还低于20%;

缺少可以由用户精调的概念,也是 AIGC 当下面临第一个重大的问题,用户很难借由一套被定义了的概念,去控制 AI 的生成,也就很难控制自己“故事的讲述”;

最后,就是图像生成结果和成本之间的效率平衡,如何在更低的价格区间里,生成更高质量的内容,也是 AIGC 在当下一个难以忽略的问题。

为了迎接这些挑战,蔡丛兴和团队见了将近一百位有影响力的AI创作者,发现他们的制作方法大多独特,很少雷同,并且都会使用大量的工具,不断地调试、调节。

最终,joinrealm.ai 在研判后,决定在三个关键点完成升级:

首先是工具链,通过完成用户交互界面的优化,让使用体验更优;

其次是让用户可以自建自己的 fine-tune,比如使用“我”的描述,产品就可以以用户自己的图像为基础,来更精准地生成自己想要的图像。

第三就是自建社区,让用户能够在社区里获得更多的使用教学和灵感启发。

圆桌讨论:AIGC“走出去”

新加坡 Help&Grow 社群发起人王桐作为主持人,与 joinrealm.ai 创始人蔡丛兴、荔枝集团的 CTO 丁宁、南洋理工大学高级研究科学家&Deepir Inc. 创始人 吴鹏程、腾讯海外游戏发行算法中心主任郎君共同探讨了当下 AIGC 与生成式内容的热点话题。

Fp0VFuNLsbjz50z-dcNNS_6z4g3a

AIGC 的商业化模式更容易在 To B 领域落地还是在 To C 领域落地 ?各位嘉宾从各自经验出发设想了未来的落脚点。

郎君认为,To B 并不好做,因为需要根据多个不同的实际案例抽象提炼出一种解决方案去应对,To C 方面,在做游戏的运营的时候可以帮助很多游戏玩家快速地融入进游戏。内部在做算法的时候,郎君和团队也会不停地判断什么样的模式能更好地去深化 AIGC 落地的场景。

吴鹏程表示,To B 和 To C 都很有机会,但伟大的公司一定是 To C 。他结合妙鸭相机、苹果 VR 眼镜、数字人直播带货等今年在 ToC 层面做出成绩的公司,强调 AIGC To C 会诞生很多有趣的应用。

丁宁认为,AIGC 的商业化仍然处于偏早期的阶段,虽然有一些率先做出成绩的公司,但大部分还在路上。他特别强调,对于技术创业者来说,不能仅仅沉浸于对技术的感动之中,还应更多的考虑用户的需求和痛点。关于To B 和 To C 的落地,他表示To B 的市场很大,需要能力和资源,而To C 的竞争大,需要有对市场的敏锐察觉力、社区的运营能力等,两者未来都很广阔。

关于 AIGC 的出海和全球化,几位嘉宾分享了他们总结的经验。

郎君观察到,国内的团队有非常密集的人才优势,高效的知识分享途径以及对互联网行业的强大兴趣,这种配置的资源在海外其实并不多。他强调,当下 AIGC 还没有一个特别成熟的商业模式,所以谁有更好的资源组合的能力,谁就更容易“跑出来”。

丁宁认为,AIGC 出海首先要走出去,把身段放低,不一定非要把产品做到什么程度,意识到两年到三年的时间内是很难一下子在市场中获得成功。他补充到,尊重海外市场是很重要的,文化、语言、法律法规的差异都是这个非常大,需对当地市场有清晰的认知。

吴鹏程认为,AIGC 出海是很有机会的,一方面,可以把中国的技术用到国外;另一方面,国外也有本地需求,两者可以做深度融合,会产生巨大价值。同时也需要考虑到,出海只是第一步,也需要考虑如何才能在海外更好地遨游。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK