2

除了AI孙燕姿,生成式音频究竟能带来什么?

 1 year ago
source link: https://www.36kr.com/p/2299774180778629
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

除了AI孙燕姿,生成式音频究竟能带来什么?

BT财经·2023-06-17 06:20
除了文字输入这种与机器交互的方式外,效率最高、最准确的就是音频与机器交互。

有人比喻ChatGPT对于科技行业,就像可乐中加入了薄荷糖,各种应用瞬间喷涌而出。

这句形容再贴切不过。6月11日,苹果发布了重磅产品——Vision Pro头显,VR头显设备一直被业界认为是苹果未来能取代手机业务的产品,不过,该产品面世却一拖再拖,直到最近被苹果发布,令外界诧异的是,苹果竟然将Vision Pro头显接入了AI助手。

头显接入AI有啥用?可以这么说,应用仅受限于你的想象力。比如你不知道如何驾驶一架战斗机,戴上具有AI功能的头显,它可以手把手教你开飞机;你打麻将老不赢?带上AI功能的头显分分钟让你“赌神附体”;出去登山AI头显可以让你化身为植物学家或动物学家……

就在前不久,全球大名鼎鼎的人形机器人公司波士顿动力,也宣布将机器狗接入ChatGPT,这犹如给了机器狗“生命”一般,让机器狗能够与人类对话,并回答各种刁钻的问题。

而这,仅仅是生成式AI应用的冰山一角。生成式AI未来将是什么样的形态?德意志银行的最新研报似乎给出了答案,生成式文字热潮后,科技界或将迎来生成式音频的大爆发。

生成式音频究竟能给我们带来什么?

AI音频已经来到我们身边

德意志银行的最新研报显示,从2020年第一季度到2022年第四季度,提到“生成式音频(generative audio)”的公司文件数量增加了13倍以上。

德意志银行分析指出,人们可以输入文本或图像来生成音频内容,而不需要音频专家或计算机专家。这可能会影响游戏、通信、音乐、新闻和医疗保健等一系列领域。

福布斯科技专栏文章同样指出,目前,AI模型已经涉足音乐领域,生成式人工智能很可能越来越成为创作歌曲和作曲的宝贵工具……

就在我们以为这样的场景会很遥远时,生成式音频已经来到我们身边。

v2_abda6e9a5bfe4331beb376a48ba73ad6@5131460_oswg301232oswg900oswg383_img_000

谁能想到,有一天华语音乐圈的顶流会是AI呢?前一段时间,AI孙燕姿登上热搜,AI孙燕姿演唱的《爱在西元前》、《发如雪》等周杰伦代表作在B站已破百万播放,众多网友被AI孙燕姿的歌声倾倒,连“冷门歌手”孙燕姿本人都不得不发文回应此事。

除了AI孙燕姿,AI瞬间席卷了音乐圈,几乎没有热门歌手能逃脱此次AI热潮。甚至AI热潮还有向谱曲、填词等周边蔓延的趋势。

因为AI歌手太热,B站音乐区不得不专门在翻唱区为“它们”开辟了一个板块。除了AI孙燕姿,化身为AI歌手的还有陈奕迅、周杰伦、张学友、刘德华等等热门歌手。在这个板块你可以听AI孙燕姿唱的《向天再借500年》,AI爱莉安娜·格兰德唱的《天路》,AI那英唱的《2002年第一场雪》,AI周杰伦唱的《乌梅子酱》……

甚至不是歌手的“名人”,也能化身为AI歌手,比如AI雷军可以为大家演唱一首《千里之外》;AI孙红雷也可以演唱柔情版的《红豆》;AI马斯克演唱《好汉歌》竟然也不违和。

如果说,这股AI歌手热潮仅仅起到了娱乐作用,那么用AI复活那些去世的歌手,也确实为冰冷的科技世界增添了些许温暖。当AI迈克尔·杰克逊再次用他那标志性的嗓音为我们演唱歌曲时,下面的留言中有网友写道:“MJ的声音一出,我就瞬间泪崩了……”一位网友在AI张国荣的演唱视频中留下评论,AI音乐技术让这些已经离世的歌手以另一种方式出了“新歌”,对粉丝们而言未尝不是心理慰藉。

正如ChatGPT对各行各业产生的影响一样,AI歌手也带来了巨大争议,有业内人士表示,AI歌手是否构成侵权,是行业内最大的争议。有律师指出,AI模拟的声音并不构成侵权,也不受《著作权法》保护,但是被翻唱的歌曲是有著作权的,需要取得授权才能使用。

还有网友指出,如果声音可以被模拟,那么是不是代表着声纹锁这样的产品会面临巨大风险?有观点指出,“生成式音频”确实会对现有的社会秩序带来更多的冲击,比如还可能引发电信诈骗、伪造高层指令等等一系列风险。

遗憾的是,这样的担忧已经成为现实。美国《时代》周刊在4月曾报道称,亚利桑那州的一个家庭以为接到了绑架电话,电话里的声音听起来与亲人的声音一模一样,甚至连哭腔都别无二致,结果发现这是一个完全由AI制造的骗局。

澳大利亚悉尼科技大学电气与数据工程学院副教授迪普对媒体指出,AI模型仅需要被模仿者说几个短语,就可以“克隆”出和他一模一样的语音,有些模型和算法只需一分钟甚至更短时间。

应用场景远超想象

AI歌手能带给大众的或只是会心一笑,娱乐性其实仅仅是“生成式音频”极小的一个应用场景,“生成式音频”能带给我们的远超想象。

事实上,互联网公司在行业最前沿从未缺席。据最新的《中国人工智能大模型地图研究报告》显示,据不完全统计,中国10亿级参数规模以上大模型已发布了79个,特别是在自然语言理解、多模态等方面,出现了多个在行业有影响力的大模型。

从世界范围来看,拥有生成式音频相关专利最多的公司包括索尼(Sony)、亚马逊、华为、字节跳动、Adobe、苹果和腾讯。

6月初,阿里云向外界透露了通义大模型进展,聚焦音视频AI的“通义听悟”正式亮相,成为国内首个开放公测的大模型应用产品。“通义听悟”正是“生成式音频”一个“非娱乐化”的落地样本。

如果仔细追溯通义听悟的“前世今生”,会发现它就是阿里云在2021就重点打造的 “听悟”大模型产品,现在被阿里云寄予厚望,就是因为除了集成阿里通义千问大模型的理解与摘要能力外,还融合了阿里最先进的语音语义、多模态算法等技术。

通义听悟带给我们的是AI音频杀入办公赛道。结合当前的官方定义来看,通义听悟具备“听”与“悟”能力,即“听力好 ”,能高准确度生成会议记录、区分不同发言人,“悟性高”,可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。

用AI音频杀入办公赛道的,不仅仅是阿里云。还有腾讯会议、科大讯飞等等实力强悍的服务商,此外抖音的飞书妙记、搜狗、网易有道也在对这个赛道虎视眈眈。

究其原因会发现,除了文字输入这种与机器交互的方式外,效率最高、最准确的就是音视频与机器交互这种方式了。而且如果语音识别度高,音频的输入速度远远高于文字输入。但是,目前文字和音频之间的转换,仍存在一些瓶颈。

v2_160ae62e6cb649ed90713d27aeed8bff@5131460_oswg287367oswg900oswg383_img_000

据业内人士指出,从文本语言模型转向音频语言模型,仍有一些问题待解决。比如,文本和音频之间不是一一对应关系。对人类来说同一句话可以有不同语气的演绎,对AI理解来说却是一个难题。此前,谷歌的AI工程师指出音频并不容易用字符来记录:“音频的数据速率要更高,用数十个字符就可表示的书面句子,其音频波形通常含有几十万个值。”

生成式音频不仅仅杀入了办公赛道,给音乐界带来的影响正如上文提到的,各种AI歌手的出现几乎颠覆了整个行业。但是,生成式音频带来的并不是只有“毁灭”,还可以帮助音乐人突破创作瓶颈。

梳理发现,其实语音、音频合成技术已经存在了几十年,音乐合成器在之前一直扮演着创造世界上从没有过的声音的“使命”,但是它必须由人来操作每一步。后来诞生了数字音乐,虽然可以大大方便音乐人来创作音乐,但是依然需要创作者具有多年的学习和使用经验。

当AI音乐席卷了音乐圈后,人们发现创作AI音乐已经不需要太多音乐知识和专业能力,只需要简单地输入一些文字和描述,就能很快创作出音乐,当然这样的“音乐”在一些音乐人眼中看来,还不能称之为“音乐”。但是随着大模型的训练,我相信这种由AI创作的音乐一定会有惊人的效果。

此外,生成式音频连游戏产业也开始颠覆。在过去,游戏公司支出的一个大头,就是游戏中各种音效、BGM、片头曲片尾曲等等,现在有了生成式音频,可以大大将这项开支节俭。

有游戏行业从业者指出,游戏中的音频主要分4个部分:音乐、语音、音效、声音引擎。之前的游戏音频开发需要经过漫长的设计、制作生产、引擎逻辑、音频QA等工序。目前,AI音频技术可以应用在设计、制作生产等环节,使得游戏音频开发时间大幅缩短,而且成本也低得多。

综合来看,生成式音频已经来到我们身边,由计算机生成的语音可以接近人类语音所传递的表达、语调和情感水平,这将为实时翻译、音频配音和自动实时配音和叙述带来新的可能性。对于我们来说,生成式音频的到来影响是巨大的,但它也告诉我们,它不是人类创造力的替代品。所以,未来世界会是什么样,我们仍不得而知。

文丨BTmt科技 青山白鹭 

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK