8

谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型

 1 year ago
source link: https://www.qbitai.com/2022/11/39144.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型

head.jpg羿阁 2022-11-03 12:43:35 来源:量子位

谷歌AIGC这次放大招了

羿阁 发自 凹非寺

量子位 | 公众号 QbitAI

临近年底,谷歌终于放大招了!

刚刚结束的AI@年度活动上,谷歌一口气发布了四项最新的AIGC技术成果。

其中最引人注意的要数文本图像模型Imagen首次开放测试,敲黑板,这次安卓、苹果都能玩

ee44f85d19e44db884f567cfe4009f62~tplv-tt-shrink:640:0.image

其他有趣的产品,还有AI写作协助工具LaMDA Wordcraft、结合Imagen Video和Phenaki优势的超长连贯性视频生成模型等等。

2c9ef7c884f844c283edb51d8c1deeb4~tplv-tt-shrink:640:0.image

而且,除了官方的总结,几位来自谷歌的科学家也在推特分享了自己心中谷歌AI研究的新进展。

具体有哪些?一起往下看。

Imagen首次开放测试

自推出以来,Imagen一直被与OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比较,但不同的是,谷歌一直没有将该系统向公众开放。

现在,谷歌终于松口,宣布将把Imagen添加到其AI Test Kitchen应用中。

AI Test Kitchen,是今年I/O大会上,谷歌推出的一款用于对各种AI系统进行测试的应用程序,目前苹果、安卓用户都能下载。

d0b688855229443baf7a2f8f784805cb~tplv-tt-shrink:640:0.image

最初的时候,用户仅可以在上面与AI聊天机器人LaMDA 2进行交流,此次更新将添加两种与Imagen互动的新方式:城市梦想家和Wobble。

在“城市梦想家”中,你可以用文字命令建造不同主题的城市,其中,Imagen模型承担了创建样本建筑和地块(城市广场、公寓楼、机场等)的作用。

dccccc41fc894d17a0ed32f0ec9d0876~tplv-tt-shrink:640:0.image

在Wobble中,你可以创造一个小怪物,DIY它的材质(粘土、毛毡、橡胶等),然后给它穿上你选择的衣服,还可以戳戳它,让它“跳舞”。

a07d587f6fea43c1b5b013e4d7378942~tplv-tt-shrink:640:0.image

尽管与其他文本到图像的模式相比,这些互动方式看上去还比较受限制,但谷歌产品管理高级总监乔希·伍德沃德(Josh Woodward)解释称,这一步的意义在于获得公众对这些AI系统的反馈,以及测试哪些行为会使得系统崩溃。

其他AIGC产品

除了最受关注的Imagen模型,谷歌还宣布了在其他内容格式上的AI内容生成技术。

比如LaMDA Wordcraft,一个在大语言模型LaMDA基础上开发的、能辅助专业作家写作的AI写文工具。

它的作用,是在创作者写作的过程当中,根据现有的文本产生新的想法,或者帮助重写已有文句,从而帮助创作者突破“创作瓶颈”。

值得一提的是,下图中的“Evaluative Soliloquies”就是作家刘宇昆(《三体》英文版译者)在Wordcraft帮助下撰写的短篇小说。

除此之外,谷歌还结合了Imagen Video和Phenaki两大模型的优势,推出了一个能生成超长连贯性视频的新模型。

还有AudioLM,一个无需文字和音乐符号训练,仅通过聆听音频样本,就可以继续生成填补乐曲的音频模型。

说完这些谷歌官方公布的新技术,让我们再来看看谷歌的科学家们自己是怎么说的。

谷歌科学家眼里的新进展

除了产品层面,今年谷歌AI研究的新进展还有哪些?

谷歌大脑的工程师周登勇在推特上分享了自己的看法:大模型学会了如何解释答案,检查答案,并将复杂问题分解成子问题解决。

deddebc6a2374dc4a032c0a8b1b1a51b~tplv-tt-shrink:640:0.image

而这一切还要从谷歌今年1月发布的一篇论文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”开始说起。

cbe337aaaecc42a692f56aa6706feced~tplv-tt-shrink:640:0.image

就是在这篇论文中,谷歌首次提出了思维链提示(chain of thought prompting)的概念。

简单来说,思维链提示就是一种特殊的上下文学习,不同于标准提示只是给出输入-输出对的示例(如下图左),思维链提示还会额外增加一段推理的过程(如下图右)。

这一步的目的是让模型模仿并为当前问题生成自己的思维过程,最终提高生成结果的准确性。

该方法在LaMDA-137B、GPT-3 175B、PaLM-540B三个大型语言模型上都得到了验证:对比标准提示,新方法在算术、常识和符号推理任务的准确率上都有了明显的提高。

并且,随着模型参数量级的提升,思维链提示的效果也呈指数级上升。

尤其是配合上谷歌的超级语言模型PaLM-540B,在包括数学问题在内的多个推理基准测试中达到了SOTA水平,甚至超过了使用验证器进行微调的GPT-3。

1adf2daf8b064cd3b88b5897de070364~tplv-tt-shrink:640:0.image

很快,两个月后该团队又对该研究进行了跟进。

这篇文章几乎使用了和初代文章完全一样的数据集和设置,主要改进是提出了一种称为自洽性(self-consistency)的简单策略。

简单来说,就像人在思考时会想出几种不同的解决方案再作出判断一样,自洽方法会通过思维提示链从语言模型中采样一组不同的推理路径,再对答案进行多数投票(majority vote),最后返回其中最自洽的答案。

这一步优化不仅意味着离模仿人类思维模式更近一步,还做到了显著地提高思维链方法的性能。

最新的进展是,为了解决从易到难的泛化问题,该团队又提出了一种新颖的提示策略。

它将复杂问题简化为一系列子问题,然后依次解决这些子问题,从而通过对先前解决的子问题的答案来促进解决给定的子问题。

19461dcd62974fd39a5ebfe10e782601~tplv-tt-shrink:640:0.image

就这样,谷歌正在训练AI一步步朝着人类的思维模式靠近。

最后,说了这么多,这一年,你印象最深的谷歌AI研究是什么?

参考链接:
[1]https://twitter.com/dmvaldman/status/1587525225209425921
[2]https://arxiv.org/abs/2201.11903
[3]https://arxiv.org/abs/2203.11171
[4]https://arxiv.org/abs/2205.10625

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK