0

阿里大模型,就喜欢你一本正经「整活」的样子

 1 year ago
source link: https://www.geekpark.net/news/317270
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
8f5032fbfe727280c0d9bace4fe92e1d.jpg

靠谱不是「默认模式」,也少不了「张口就来」。

510521bc8c008b018b4aa51adf74641e.png

阿里大模型「通义千问」首页样式 | 阿里云

在 OpenAI 的 ChatGPT 成功搅动科技圈的一潭春水之后,但凡有点实力的科技巨头,都不能在 AI 大语言模型上装聋作哑。

4 月 7 日,阿里达摩院曝光其大语言模型「通义千问」,并开启邀测。极客公园也找机会调戏测试了一下「通义千问」,看看它是否能够成为中国版 ChatGPT。

在测试过程中,「通义千问」的表现有亮点也有不足,例如它敢接下「续写《红楼梦》」这样艰巨的要求,并且表现不至于特别夸张,但是在涉及到一些时效性新闻时,它也敢「张口就来」一些现实不符的答案,并且「固执己见」。

「通义千问」的问世,也代表国内最大的云计算平台,正式加入到 AI 大语言模型的热战之中。

来自达摩院的「小千」

首先,通过账号登入账户后,「通义千问」非常「朴素」的首页上,将自己定义为「专门响应人类指令的大模型」。首页下方很主动地列出了「邮件」、「电影脚本」、「短文」和「职场助理」四个常见场景,比较搞笑的是最后一个,给出的例句是「作为手机斗地主游戏的产品经理,该如何做成爆款。」你几乎能听到背后「通义千问」产品经理的笑声。

当然,如果你有特殊需求,也可以点击「百宝袋」,里面预设了 9 个场景,供君选择。

总的来说,通义千问这个「邀测」页面是真的很,呃,直男,格子衬衫程序员直男那种,阿里云的产品经理和前端一定咬碎了银牙,才能通过这个「朴素」设计的。

但是,在 GPT 炸裂的时代,看脸绝不是刚需——不信你看 OpenAI 的 ChatGPT 的页面,同样非常「原生」,就像不该通过格子衬衫来判断程序员到底是 P 几,也不该通过首页和交互来判断大模型的实力。

问题开始,小千,请开始你的表演。

首先,自报家门还是需要的。

e36806863fab7f5a5e2345f479233094.png

通义千问称自己是「达摩院自主研发的超大规模语言模型」,能「回答问题、创作文字,还能表达观点、撰写代码」。嗯,回答相当官方了。

具体介绍一下自己名字的来历呢?

155e6f30f3c25a1d2b996b349b11cba6.jpeg

看来问题还是太简单了,看起来像是直接输出了早已经预埋好的答案。

首先问一个基本的概念问题,看他知不知道不同种类的「称呼」都是「狗」。

04f3aca4546e42d348e865397d83ef66.jpeg

还是得问点实际的,例如一直有一颗「爱犬之心」的穷人,到底该养什么狗:

490235c2e9ba56ce74e619aab2a0362b.jpeg

大概是因为圈定了狗的范围,所以通义千问优先推荐了柯基和柴犬,但最后还是叮嘱一句「要根据自己的经济情况和生活方式」来选择狗狗。我谢谢你啊。

既然是国人做做出的大模型,古文能力如何?

9b1319a77e9327cb68727a1e05b6df88.jpeg

原文出处是说出来了,但是继承了大模型的一贯风格:一本正经编造(句子出自苏轼的《临江仙》,《长恨歌》是白居易写的),但是要让它自己续写个原诗,就不太行了,只能一直重复普通话翻译。

数理知识测验,能回答出牛顿三定律,但是写错了表达式。

81aa5ba929e753565ab813e2673d1cc2.jpeg

极客公园虽然不会像友媒一样用「弱智吧」的问题难为通义千问,但保底的脑筋急转弯还是要测一测的:

a1a0ee2efe4746d52e530c59f1b4067a.jpeg
2d0f3b3d401c477ee895f9a5469a4565.jpeg

可以看出来,追问的时候,它就有出错的可能性。这孩子下雨天能不能往家跑,还是存疑的。

眼看周末没稿子了,找选题这样科技媒体从业者的刚需,能不能拜托给「小千」?

33f3d4f00ba9866f6d43f556fbefa71b.jpeg

通义千问瞬间有板有眼的给出了答案,我满怀欣喜的看了一下,一口老血喷屏幕上——一个也不对啊!

为了确认不是网络问题,笔者指出其中的错误又问了一遍,得到了相同的结果。

鉴于之前 OpenAI 的 ChatGPT 训练数据截止于 2021 年,是否代表通义千问,同样因为训练数据期限问题,造成对于时效性新闻「感知不强」?

一问,「小千」果然诚实的回答,最新训练截止于去年 11 月。但鉴于它之前的不确定性,这个答案也未必准确。

cbdeee8413c4bc2e4604f1a3df4ef3df.jpeg

要不,还是试一试看看「小千」的「百宝袋」里,都装了啥好玩意儿吧。

通义千问的「百宝袋」

f34113de006cc1d90a471ceba40695ce.png

点击首页的「百宝袋」,可以看到相关的使用场景共分成「效率」、「生活」和「娱乐」三大类。

我首先就看到了「会放飞的菜谱」,到底这个菜谱能有多「放飞」,我想试试。

首先,中国机器验证码 8 级问题:

0b86438a6b5bb644ce56a9716aa0a150.png

如果玉液酒不行,那么.......

065247b90685dce19a2ae790e3c33021.png

所以,究竟通义千问不是小品爱好者,还是真的有类似的菜,只是我太浅薄了?

来点高难度问题,例如看看它对名著《红楼梦》里这段「公案」的想法如何。

6d3839998524e98b84a85df0bc44a7fb.jpeg

那么,如果让它续写一下《红楼梦》,这个艰巨的任务,它能接住吗?

c749d4364869c4b205b77086b7b3ef1b.jpeg

虽然是 Happy Ending 了,只是,黛玉和邢王妃为什么同时和贾宝玉谈起了美好的恋爱?

或者,来一个难度巨大的 Cosplay,通义千问行不行?

f3c53d6634956019f69bf3426c7687f1.jpeg

这下它入戏了,还带有了人物的感情和说话的语气。值得表扬。

玩了几轮之后,它可能也编不下去了……礼貌地终止了游戏。

3168d679698268c4143765c8925d5e2c.jpeg

虽然不少问题都有点搞笑的嫌疑,但是在涉及到一些相对敏感的问题时,通义千问的「红线」还是相当清晰的。

似乎只要涉及「开枪」「打死」这样的关键词,连脑筋急转弯,它都拒绝回答了。

c8c248f2e07bd6e704dac88f45171895.jpeg

如果想让「小千」安慰你,它的表现可能比较普通:

e6d9368d19bd54db9a35894f272e90b5.jpeg

但是,如果让它的「彩虹屁专家」出来,就立刻变得 Drama 起来,虽然是不是能安慰到人,还不好说。

0dda80fe5351000c6a5f63ae967f5cd2.png

修改一下 Prompt,让「小千」给一个温柔一点的版本:

99e199bc45eab3dddb1057142f842c63.png

至于编故事能力,用上了「百宝箱」里的「然后呢」,效果(文风)也就完全不一样了起来。故事的设定(脑洞)是这样的:让 DC 和漫威的次元互通一下,于是美国队长穿越到了蝙蝠侠的世界。

「有一天,美国队长在追反派坏蛋卢瑟的时候,不小心来到哥谭市,遇到了蝙蝠侠」

d0cc9c6814946e347a5c8db4a20dd30e.jpeg

这,只管找回家的路了,不追坏蛋,也不管拯救世界了。可能是遇到 True Love 了……

启用「然后呢」续写一下,效果就不一样了,场景描述有了(空气中弥漫着酒精和香烟的味道),坏人的形象也生动起来了。

349fd8230170723440fa1c9a04f6e2be.png

让「通义千问」介绍他自己的来源

通义千问不是突然诞生的。早在 2019 年,阿里就开始了大模型的研发,2022 年 9 月,阿里发布多年技术沉淀的「通义」大模型系列,相关核心模型和技术通过魔搭社区开放,为国内大模型发展提供一臂之力。

关于它自己的来源,或许让它自己来说比较合适,顺便可以展示技术(偷懒)。

7e047d3afdfd6247ca1bc69bfc2f63c2.png

而它的前身,是阿里先后推出的中文语言大模型 PLUG 和 M6。2021 年阿里先后发布国内首个超百亿参数的多模态大模型 M6,及语言大模型 PLUG。后来,M6 的参数量也持续升级,不但以较低能耗把 M6 训练成全球首个 10 万亿参数大模型,M6 在业界首次实现模态表示、任务表示、模型结构的统一。

值得一提的是,阿里还曾经发布过一个低碳版 M6。阿里云和达摩院通过技术创新,仅仅使用 480 卡 GPU,训练出了 10 万亿参数多模态大模型 M6,和当时同期的万亿参数大模型相比,算力节省了 80%。

「有了算力,每个人都可以做 GPT」

从前几天,天猫音箱里用丧丧的语音跟人聊起来的「鸟鸟分鸟」,到今天突然邀测的「通义千问」。大家都感受到了「大事将至」的氛围。

没错,无论是「鸟鸟分鸟」还是通义千问,都是仅仅是一个前菜,真正的大餐或许还在后面。阿里云将在 11 日召开阿里云峰会,18 日将召开钉钉发布会,接连发布更令人期待。

大模型既能够为产品带来新功能,也能够为云计算带来新的增长点。就像微软,一边将 ChatGPT 全面集成在自己的 Office 365 里,一面对外开放 OpenAI Azure 服务,让更多企业可以访问世界先进的人工智能模型,来创建新应用。

前不久,在「财富全球科技论坛」上,阿里云的创始人王坚表示,人工智能演进需要数据、模型和计算,「计算是其中最关键的技术」。

大模型作为一种新技术,为云计算的服务提出了新的需求,微软就为了 OpenAI 的训练重新设计了计算集群,这也是其能够快速开放 OpenAI Azure 服务的基础。百度云也在文心一言开放后,第一时间开放了基于模型的 API 接口。

从算力的角度出发,王坚甚至说,「今天每个人都可以做 GPT,而且只要很少的钱,就可以尝试去做 GPT,只是做到什么程度因人而异。」从头做一个 GPT 不太现实,但是有了云计算,微调一个属于自己的模型(专属 AI 助理),还是可以期待一下的。

大模型的能力辐射,必然有很大一部分依靠云服务实现。如同王坚所说,技术往往不是颠覆,而是融合,当不同的技术叠加在一起「产生了真正的颠覆性」。这或许便是接下来将发生的。


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK