6

阿里达摩院低调上线文本生成视频大模型,可以试玩!AI开始卷视频了!

 1 year ago
source link: https://www.8btc.com/article/6810506
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
2023-03-22 08:12

阿里达摩院低调上线文本生成视频大模型,可以试玩!AI开始卷视频了!

来源:互联网白话

作者:童蔚

这波AIGC(利用人工智能技术来生成内容)的热潮,已经开卷视频了。

上个月初,白话君说过,阿里达摩院正在研发类ChatGPT的对话机器人,当时已开放给公司内员工测试。

没想到,一个多月后,先露面的是文本生成视频。

就在3月30日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。魔搭,是达摩院在去年11月推出的开源模型平台。

FnMe3AfIhVJSK0uO5XwWflEXxDJw

根据官方介绍,目前这个模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

Fp6QMFSdKO3rd3vLI1npQFZ_v9YC

看不太懂?没关系。会玩就行。

白话君刚才试了一把。输入提示词:A panda eating bamboo on a rock,等了差不多77秒,收到一段2秒钟的视频。 感受一下~

FhrgrdUoMQG84gmWpn1eQ1IMUDH4

如果换成中文:一只大熊猫坐在岩石上吃竹子,出来的结果就是一只类似于猫咪的小动物。果然,目前还不支持中文。

FsDY1ajOYisTAXB5ZOyMDsWeh6XZ

再来几个~

A goldendoodle playing in a park by a lake.(一只金贵犬在湖边的公园玩耍)

FjXDqKirqb2ij87mjirxQOzg9gbL

A dog wearing a Superhero outfit with red cape flying through the sky.(一只身着超级英雄装和红斗篷的狗正在天上飞)

Fjq9lF7ZkH869FjZHq-VCKJWmq_B

Monkey learning to play the piano.(猴子正在学习弹钢琴)

FpF39_8lKqoNywMMgfroC3y7Z_kL

从试玩的结果来看,目前能生成的视频长度多在2-4秒,生成等候时间从20多秒到1分多钟不等。

感兴趣的,不妨自己去体验一下(试玩地址:https://modelscope.cn/studios/damo/text-to-video-synthesis/summary)

达摩院的这个发布,也在国内外的社交平台上吸引了一波尝鲜的网友。因为玩的人太多,有微博网友说,连刷20次都没挤进去。

Fi-qc9qGEUQ-suUl7sR8DRa297eH
Fg4ksDNJQkju1a1glN1NHHCiD9HK
Fj8fYRYPLIjByECLQPRjfmt1qX5T
FuzGnFT0MgB2sZg5QWigxvK5-1yr

另外,昨日凌晨,总部位于纽约的人工智能初创公司Runway也发布了一种从文本到视频转化的AI模型Gen-2。

上个月,这家曾参与创建Stable Diffusion的公司推出过模型Gen-1,能通过文本提示或参考图像指定的风格,将现有视频转化为新视频。

比如将“街道上的人”变成“粘土木偶”,只需要一行提示词。

FhL-y7pseybYqrhjSOjSlaExaNGM

从命名上就能看出,Gen-2是Gen-1的升级版,能从零开始产出视频。目前,我们只能看到Runway分享出来的一些演示片段。根据该公司的说法,未来几周会提供广泛访问试用。

FkAtNpDeiRyqlUI_lcjH1jffiHTZ
Fi_tYCv4Gf5y080aZvlnT5Sfr3Gr

早在去年,谷歌和Meta都展示了各自在文本转视频上的尝试,利用AI生成泰迪熊洗碗和在湖上泛舟等视频。但这两家公司都没有宣布将相关技术推进到研究阶段以外的计划。

lok_L75gMWQv7a8FQ9drDdn-oo_V

文本生成视频,最理想的效果就是用户给出提示词,系统自动生成任何风格的对应视频。

不过,从目前此类模型生成视频的等待时间,画面的真实度、清晰度以及长度等各方面来看,距离产出令人满意的视频还有很大距离。

事实上,与图像编辑相比,视频编辑是一个更有挑战性的领域。扎克伯格此前就在推特上说过,AI模型能从生成静态像素,发展到预测每个像素随着时间推移发生的变化,这在技术上已经是一个突破。

当然了,也许用不了多久,AI就会解决现存的这些缺陷。将来,哪怕完全不懂视频制作的人,也能上手做视频,且可能是批量产出。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK