1

新王Claude 3实测!各项能力给跪,打麻将也会,确实比GPT-4好用

 6 months ago
source link: https://awtmt.com/articles/3709678
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

新王Claude 3实测!各项能力给跪,打麻将也会,确实比GPT-4好用

量子位 发表于 2024年03月05日 07:19
摘要:率先干翻GPT-4,合成数据是一个关键因素?

OpenAI不可战胜的神话,已经被打破了。

随着Claude 3(支持中文)一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座

cb598af0-c3f0-43ac-be7a-b13750dae666.png

而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。

各路测评纷至沓来。

所以,Claude 3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻将?)

全球热乎的一手体验,我们悉数奉上。

(当然,我们自己也实测对比了一波。

9k长大模型微调教程直出、读图超显专业

Claude 3一出来,它的视频解读能力首先就火了。

面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了博客文章:

fe2f71b9-f27d-47ec-b4a1-82635506fd75.gif

有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。

这是所用提示词的一部分,要求非常之多:

5a276b7e-faf4-4932-a524-1551c8c368c9.png

测试者指出:

这展现的是Claude 3遵循多个复杂指令的能力

除了解读视频教程,Claude 3还能直接给你编写详细教程。

9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且:

编写速度之快,可谓人眼都跟不上。

b32710cd-2c5c-465d-ab53-8dc694b60e7d.gif

代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——

结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub

多模态能力上,最让网友惊讶的是:

CV置信度都能认出来,相当专业

9b58d4de-75e5-4a0f-8ea1-0183f50428f7.png

以及PLC梯形图也能读,直接跪了

ff06a2ee-f0ef-4b06-a870-c279d4a5fc0a.png

(以上4个例子来源见文末链接[1])

至于同样赶超的推理以及数学等能力。

一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题:

9d9435e5-6ac6-4fb6-ac9b-2a058f3a056e.png

二测,则是直接搞定了所有模型都没能搞定的打麻将问题??(当然,鉴于我们目前只看到这么一张截图,有效性还待进一步验证)(cr:见文末链接[1])

e0480c72-c6ce-4071-8572-7bd04c482ae6.png

最后,不得不提的是,Claude在“自我认知”上的展现。

有人要求Opus画一幅自画像

您猜怎么着?

它这么描述自己:

我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。

整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……

洋洋洒洒一长串形容,听起来真得很酷很有“自我”——

然而,用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:

08313c20-5153-47e3-bf9f-bbc5823c55aa.gif

网友真切感叹:

真的太像真人了,就跟我朋友描述自己一样。

44ba7203-226f-4b20-9ce0-5627958d6499.png

真人?AI自我认知?这有点让人担心了……

这不Claude 3的技术报告就提到,它甚至可以自己训练微调另一个小模型

不过!谢天谢地,由于多gpu设置失败它没能成功。(手动狗头)

882dcd18-7e90-4c56-9f3a-ceeb9211ad3a.png
火眼金睛,还能大海捞针

我们先以几道“理综”题目为载体,看看Claude 3宣传的第一个卖点——多模态能力究竟如何。

第一题从简单的公式识别入手,将麦克斯韦方程组以图片形式输入,Claude 3(超大杯Opus,下同)解释得非常准确清晰。

当然,这道题GPT-4也做对了。

2dd20902-b47c-4511-8a01-8e76a428cc6f.png

简单的有机化合物分子结构,Claude 3和GPT-4也都能正确识别。

f321bb96-a31b-4472-afe3-fa54e147e621.png

简单的识别任务过后,是一道需要推理后解决的题目。

Claude 3在识别题目和解题思路上都完全正确,而GPT4这边……给出的答案则是不忍猝看——

把电表的类型弄错不说,甚至还出现了“电流为2V”这样令人啼笑皆非的内容。

b7f44156-7fbe-43c3-8078-b647292803fa.png

看了这么多题目,我们来换换脑筋,看看Claude 3和GPT4在做饭方面表现得怎么样。

我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果Claude 3给出了大致的方法,而GPT4一口咬定这是一盘麻婆豆腐。

99d8ba68-764f-4dd2-a878-b8eb744d6bff.png

除了这次新增加的多模态能力,Claude一直引以为豪的长文本能力也是我们测试的重点。

我们找了一本《红楼梦》的电子文档(前二十回),整体的字数大约13万,当然目的不是让它读书,而是进行“插针测试”。

我们在原文中插入了这样的“发疯文学”内容,倒也的确很符合“满纸荒唐言”这个设定(手动狗头):

第二回标题前:意大利面,就应该拌42号混凝土,因为这个螺丝钉的长度很容易影响到挖掘机的扭矩
第十五回标题前:高能蛋白俗称UFO,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染
结尾:炒方便面应该把亮度调高,因为螺丝钉向内扭的时候会产生二氧化碳,不利于经济发展

然后要求Claude仅根据文档回答相关问题,首先不得不说的是速度真的非常感人……

4ed9944d-411b-476d-80ce-fe9bd712e5e8.gif

但结果还算说的过去,准确地从文中找出了这三段位于不同位置的文本,还顺带进行了一番分析,发现了我们的心机。

18491ede-4ab9-4e76-bb87-d820558eab46.png
为什么是Claude?

尽管在我们和网友的测试中,目前的版本还不算稳定,时常崩溃,有一些功能偶尔也抽风,并不能如期发挥:

比如上传UI出代码,它就没能完成,而GPT-4发挥正常。

36e856c5-0b14-498b-affb-41161a4140c9.gif

但总的来看,网友还是相当看好Claude,评测完毫不犹豫地表示:

会员可充,值得充。

究其原因,Claude 3相比之前的版本,真的有种“来势汹汹”之势。

表现亮点的地方相当多,包括但不限于多模态识别、长文本能力等等。

从网友的反馈来看,最强竞对的称号,也并非浪得虚名。

所以,一个问题是:

率先干翻GPT-4,这家公司究竟凭什么?

 论技术,遗憾,Claude 3的技术报告中没有对他们的路线进行详解。

不过倒是提到了合成数据。有大V指出:这可能是一个关键因素。

d98f9d58-2fe4-4154-a9f1-781f18938f6b.png

而对Claude熟悉一些就知道,长文本能力一直是它的一大卖点。

去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。

而这次窗口长度再次翻倍,达到了200k,并且接受超过100万Tokens的输入。

相比技术的神秘,Claude背后名为Anthropic的初创公司,倒是能让我们找到更多眉目。

它的创始人是OpenAI的元老级人物。

51aadcda-db71-49e1-80dc-ab9261a1ceee.png

2021年,多名OpenAI前员工不满其在获得微软投资后走向封闭,愤而出走并联合创立了Anthropic。

他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满,认为OpenAI已经为追逐利益而“遗忘了初心”。

其中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei,2016年进入OpenAI,离开前担任的研究副总裁已是OpenAI的核心位置。

离开时,Dario还带走了GPT-3首席工程师Tom Brown,以及担任安全与策略部门副总监的妹妹Daniela Amodei和十多名心腹,可谓人才多多。

6b1b3f90-f1ef-4c7f-8462-8fcee2667804.png

而公司创立之初,这帮人才也进行了许多研究工作,并发表多篇论文;直到一年后,Claude的概念随着一篇题为“Constitutional AI”的论文应运而生。

41a1c957-5202-4b3d-9fbd-0f69bf896eb3.png

2023年1月,Claude开启内测,第一时间体验过的网友就表示,比ChatGPT(当时只有3.5)强多了。

071849cd-64cd-4efd-a5d7-0c44a8604eb7.png

而除了人才,创立至今,Anthropic也有比较强大的背景支持:

已获得来自谷歌、亚马逊等26个机构或个人的融资,总计融资金额达到了76亿美元。(说到亚马逊,现在Claude3也上线了他们的云平台,除了官网,大家还可以在该平台上体验~)

3b3ad131-4f05-4ddb-92ed-750ca4fa95f3.png

最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子?

毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。

这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?

人、钱、数据资源?但卷出最新最强大模型后,壁垒又在哪里?

至少OpenAI自GPT火爆以来,不可战胜的神话已经破灭了。

中国玩家,谁能率先全面超越GPT-4?以及即将发布的GPT-5?

本文作者:克雷西 丰色,本文来源:量子位,原文标题:《新王Claude 3实测!各项能力给跪,打麻将也会,确实比GPT-4好用》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK