1

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

 1 year ago
source link: https://www.qbitai.com/2023/06/63756.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

head.jpg白交 2023-06-25 12:56:36 来源:量子位

基于OpenAI Whisper模型

杨净 发自 凹非寺

量子位 | 公众号 QbitAI

现在剪视频,已经可以精准到每一个字了!

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

只需点击你要删减或者要留下的单词,AI分分钟都能给你整出新的视频来。

这操作,有点大爆炸功能内味了。老罗:打钱!

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

不管是MV、访谈、电影片段各种类型视频,也不论有无字幕,通通不在话下。

网友们纷纷开始试玩了起来。比如让rick roll鬼畜起来~

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩
视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

就连中文视频也能Hold住。实测Demo发现,它甚至直接翻译成了英文。

不过这也并不影响整个操作,毕竟背后模型是支持中文在内的多个语言的。

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

精准到每个字剪视频

只需三步,就可以轻松完成精准到字的视频剪辑——

上传视频、选择删减/留下的单词、下载视频。

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

释出的有三个示例,烹饪的美食视频、小扎采访、以及「Just Do IT」……

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

当然你也可以自己试玩,各种语言都能识别。比如就以让子弹飞一段经典对白为例。

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

绿色代表保留,红色代表删除。你有三种选择:剪辑、选择所有单词、重新设置。

任意选择保留单词之后,就可以「Cut Video」了。此处选择两处跳脱的台词。最终只花了不到十秒钟就完成了剪辑。

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

画面切换可以说是十分顺滑了~整个Demo试玩在T4上运行。

基于Whisper模型

这是个荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发的新功能。

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

Whisper是OpenAI于去年9月开源的语音识别神经网络,经过68万小时的多语言和多任务监督网络数据的训练,其鲁棒性和准确性接近人类水平。它可以进行多语言转录,以及其他语言将翻译成英文。

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

它是基于Transformer端到端实现架构,无需任何微调。输入音频被分成30秒的块,转化为梅尔倒谱(音频特征提取方式之一,log-Mel spectrogram),然后传入编码器。

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩

好了,试玩Demo在此,感兴趣的旁友可戳:
https://huggingface.co/spaces/radames/whisper-word-level-trim
参考链接:
[1]https://openai.com/research/whisper
[2]https://twitter.com/mhollemans/status/1671812176842039296

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK