3

2024 AI“走向水深之处”:派拉蒙和迪士尼正尝试用生成式AI制作动画

 8 months ago
source link: https://www.mittrchina.com/news/detail/12840
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

麻省理工科技评论-2024 AI“走向水深之处”:派拉蒙和迪士尼正尝试用生成式AI制作动画

2024 AI“走向水深之处”:派拉蒙和迪士尼正尝试用生成式AI制作动画
聊天机器人的下一个大进展将是多模态。
280

2023 年这个时候,我们做了一些大胆的尝试。在一个充满变化的行业里,我们试着预测未来。

我们做得怎么样?以下是我们对 2023 年的四大预测:

预测一:聊天机器人的下一个大进展将是多模态。

结果:预测准确。目前最强大的大型语言模型,OpenAI 的 GPT-4 和谷歌 DeepMind 的 Gemini,都可以处理文本、图像和音频。

预测二:政策制定者将出台严格的新规定。

结果:预测准确。拜登政府的行政令于 10 月出台,欧盟的《人工智能法案》最终于 12 月达成一致。

预测三:大型科技公司将感受到来自开源初创公司的压力。

结果:半对半错。大模型开源热潮仍在持续,但像 OpenAI 和谷歌 DeepMind 这样的人工智能公司仍然独占鳌头。

预测四:人工智能将永远改变大型制药公司。

结果:现在还为时过早。药物发现领域的人工智能革命仍在展开的过程中,但使用人工智能开发的第一批药物距离问世还有几年的时间。

现在,我们又来了。

这次,我们决定忽略那些显而易见的事情,比如我们知道大型语言模型将继续占据主导地位,监管机构也将变得更加大胆。

人工智能领域存在的偏见、版权和末日论等问题将影响研究人员、监管机构和公众的议程,这种现象将在未来几年持续下去,而不仅仅是 2024 年。

因此,我们选择(预测)了一些更具体的趋势。以下是 2024 年值得关注的事项,等到 2025 年这个时候,记得再来看看我们的结果如何。

3a05868091914669a3b547508a55eafd~tplv-obj.image?lk3s=ef143cfe&traceid=20240105181014901BEAEED9604FE6517D&x-expires=2147483647&x-signature=qP2L6aHr7lnvoaLLozhiKAJq390%3D
(来源:AI 生成)
fa9adc8bab3d4377877b8d03e3b4c147~tplv-obj.image?lk3s=ef143cfe&traceid=20240105181014901BEAEED9604FE6517D&x-expires=2147483647&x-signature=NXBgaKU8IVM3DJyCCWZGFiBOBoE%3D

定制聊天机器人

一个又一个的聊天机器人不断出现。2024 年,在生成式人工智能方面投入巨资的科技公司将面临压力,它们需要证明自己可以从相关产品中赚钱。

为了做到这一点,人工智能巨头谷歌和 OpenAI 正在“小事情”上下重注。它们都在开发面向普通人的用户友好平台,允许人们定制强大的语言模型,并制作自己的迷你聊天机器人,以满足他们的特定需求且不需要编程技能。

两家公司都推出了网页版工具,让任何人都能成为生成式人工智能应用程序的开发者。

到 2024 年,生成式人工智能可能会对普通的非技术人员很有用,我们将看到更多的人在打磨无数个小的人工智能模型。目前最先进的人工智能模型,比如 GPT-4 和 Gemini 是多模式的,这意味着它们不仅可以处理文本,还可以处理图像甚至视频。

这个新能力可以解锁一大堆新的应用程序。例如,房地产经纪人可以上传以前房源广告的文本,只需点击一个按钮就可以微调一个强大的模型以生成类似的文本,还可以上传新房源的视频和照片,让经过定制的人工智能工具生成房屋描述。

当然,这个想法能否成功取决于这些模型是否可靠。语言模型容易虚构事实,而生成式模型本身充满了偏见。

它们也很容易被黑,尤其是当它们被允许访问网络时。科技公司还没有解决这些问题。当新鲜感消失时,它们将不得不为客户提供处理这些问题的方法。

d927c6d78c8246f1a5e340587452de99~tplv-obj.image?lk3s=ef143cfe&traceid=20240105181014901BEAEED9604FE6517D&x-expires=2147483647&x-signature=9Tie%2BJKtCiYeVS4YuOiQP2xPWBo%3D

视频生成,生成式人工智能的第二波浪潮

人们熟悉神奇事物的速度超乎想象地快。2022 年,第一批制作图像的生成式模型成为了主流,人们很快习惯了它们的存在。

互联网上,OpenAI 的 DALL-E、Stability AI 的 Stable Diffusion 和 Adobe 的萤火虫等工具创造出了很多图像,比如身着巴黎世家的教皇,着火的五角大楼等等,令人瞠目结舌。

但除了有趣,这种现象还带来了别的东西。有好玩的图片,就有带有性别歧视和刻板印象的图片。

这个领域的最新前沿是文本到视频。我们预计,它会将文本到图像中所有好的、坏的或丑陋的东西都转化为视频并放大它们。

一年前,当生成式模型被训练将多个图像拼接成几秒钟长的视频片段时,我们第一次看到了它们能做什么。当时生成的结果不真实,而且不稳定。但技术进步很快。

Runway 是一家制作生成式视频模型的初创公司(它还共同创造了 Stable Diffusion 模型),每隔几个月就会给自己的工具推出新版本。

其最新模型 Gen-2 仍然只能生成几秒钟长的视频,但质量惊人。最好的片段比起皮克斯动画也差不了多少。

Runway 设立了一个年度人工智能电影节,展示用一系列人工智能工具制作的实验电影。2024 年的电影节有 6 万美元的奖金,10 部最佳影片将在纽约和洛杉矶上映。

显然,顶级工作室也注意到了这一点,包括派拉蒙和迪士尼在内的电影巨头目前正探索在动画制作过程中使用生成式人工智能。这项技术正被用于在外语配音中实现口型同步。

它正在重塑特效的可能性。2023 年,《夺宝奇兵:命运转盘》利用了深度伪造技术,展示了年轻时的哈里森·福特(Harrison Ford)。这只是一个开始。

在大屏幕之外,用于营销或培训目的的深度伪造技术也在兴起。例如,英国 Synthesia 公司开发的工具可以将演员的一次性表演变成源源不断的深度伪造化身,只需按下按钮就能读出你给他们的任何剧本。据该公司称,其技术目前被 44% 的财富 100 强公司使用。

用很少的资源就能实现很多事情,这种能力给演员们带来了严峻的挑战。对工作室使用和滥用人工智能的担忧,成为了是 2023 年好莱坞 SAG-AFTRA 罢工的核心。

影响才刚刚显现出来。“电影制作方式正在发生根本性的变化。”独立电影制作人苏基·梅哈达维(Souki Mehdaoui)说,她也是创意技术咨询公司 Bell&Whistle 的联合创始人。

f60fe9dc8845418592620442a1c47113~tplv-obj.image?lk3s=ef143cfe&traceid=20240105181014901BEAEED9604FE6517D&x-expires=2147483647&x-signature=TnRWHBao4C1MTAZo2R4iMAdVXws%3D

人工智能生成的虚假选举信息将无处不在

看看最近的选举,人工智能产生的与选举有关的虚假信息和深度伪造将是一个巨大的问题。2024 年,我们将看到创纪录的人参与投票,我们也已经看到政客们将这些工具武器化。

在阿根廷,两位总统候选人给对手创建了人工智能生成的图像和视频来攻击他们。

在斯洛伐克选举期间,一位候选人威胁要提高啤酒价格并开儿童色情玩笑的深度伪造内容广泛传播。在美国,唐纳德·特朗普(Donald Trump)被伪造了他支持带有种族主义和性别歧视色彩的团体。

虽然很难说这些例子对选举结果有多大影响,但它们的迅速传播是一个令人担忧的趋势。在网上识别什么是真实的东西将比以往任何时候都更加困难。在已经激化和两极分化的政治环境中,这可能会产生严重后果。

就在几年前,创建深度伪造内容还需要先进的技术,但生成式人工智能让它变得非常简单,而且成果看起来越来越逼真。即使是可靠的信源也可能被人工智能生成的内容愚弄。

对于那些想阻止此类内容扩散的人来说,2024 年将是至关重要的一年。识别和防范此类内容的技术仍处于早期发展阶段。水印技术,如谷歌 DeepMind 的 SynthID,大多不是强制的,而且并非完全万无一失。

众所周知,社交媒体平台在删除错误信息方面行动缓慢。所以我们准备好迎接大量人工智能生成的假新闻吧,我们将亲身经历一场大规模的实验。

d6ac9382e1964c7abb3a246ade10dfa0~tplv-obj.image?lk3s=ef143cfe&traceid=20240105181014901BEAEED9604FE6517D&x-expires=2147483647&x-signature=WvqV6I5UheGJWu1ZgYjKxqPR2Ho%3D

多任务机器人

受生成式人工智能繁荣背后的一些核心技术的启发,机器人学家开始建造更多通用机器人,旨在完成更广泛的任务。

在过去的几年里,人工智能已经从使用多个小模型(每个模型都被训练来完成不同的特定任务,比如识别图像、绘制图像、为图像加字幕等等)转变为使用单一的模型。这些模型被训练来做所有这些事情。

通过向 OpenAI 的 GPT-3 输送一些额外样本(称为微调),研究人员可以训练它解决编程问题、编写电影脚本、通过高中生物考试等等。多模态模型,如 GPT-4 和谷歌 DeepMind 的 Gemini,可以解决视觉任务和语言任务。

同样的方法也适用于机器人,我们不需要训练两个机器人,一个专门翻煎饼,另一个专门开门。一个拥有多种能力的模型可以让机器人具备多任务处理的能力。2023 年,我们看到了这一领域的几个实例。

2023 年 6 月,DeepMind 发布了 Robocat,它可以学习如何控制许多不同的机械臂,而不是一个特定的机械臂。

2023 年 10 月,该公司与 33 所大学实验室合作,推出了另一款名为 RT-X 的通用机器人模型,以及一个新的大型通用训练数据集。

其他顶级研究团队,如加州大学伯克利分校的机器人人工智能和学习(RAIL,Robotic Artificial Intelligence and Learning)团队,也在研究类似的技术。

机器人领域的问题在于缺乏数据。生成式人工智能可以利用互联网上的文本和图像数据。相比之下,机器人很少有好的数据源,来帮助它们学习如何完成我们希望它们完成的许多工作或家务。

美国纽约大学的勒雷尔·平托(Lerrel Pinto)领导了一个团队来解决这个问题。他和他的同事们正在开发技术,让机器人通过试错来学习,并在学习过程中获得自己的训练数据。

在一个更为低调的项目中,平托招募了志愿者,使用安装在垃圾分拣机械臂上的 iPhone 收集视频数据。在过去几年里,大公司也开始发布用于训练机器人的大型数据集,例如 Meta 的 Ego4D。

这种方法已经用在了无人驾驶汽车领域。Wayve、Waabo 和 Ghost 等初创公司正在开创一股新的自动驾驶人工智能浪潮,它们使用单个大型模型来控制车辆,而不是多个负责特定驾驶任务的小模型。

这让小公司追上了 Cruise 和 Waymo 这样的巨头。Wayve 目前正在伦敦狭窄而繁忙的街道上测试其无人驾驶汽车。接下来,世界各地的机器人都将获得类似的能力提升。

作者简介①:梅丽莎·海基莱(Melissa Heikkilä)是《麻省理工科技评论》的资深记者,她着重报道人工智能及其如何改变人类社会。此前,她曾在 POLITICO 撰写有关人工智能政策和政治的文章。她还曾在《经济学人》工作,并曾担任新闻主播。

作者简介②:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位。

支持:Ren

运营/排版:何晨龙


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK