6

一年过去了,国产大模型怎样了?——用户视角的 12 家 AI 产品评测

 7 months ago
source link: https://www.techug.com/post/a-year-has-passed-how-has-the-domestically-produced-large-model-gone-12-ai-product-reviews-c53f77/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

一年过去了,国产大模型怎样了?——用户视角的 12 家 AI 产品评测

源起

ChatGPT-3.5 发布于 2023 年 3 月 1 日,短短一年内,AI 已经变成几乎所有科技公司都关注的话题,并且涌现了不少大模型。

我在过去曾经做过很多轮基础的评测,说是评测,更多还是试用,比如:字节的豆包,与文心一言、通义千问、ChatGPT 在 9 个问题上的对比

如今已经是 2024 年,我很好奇如今国产的大模型进展如何了,翻遍了中文互联网,往往都是 PR 稿,很少有系统性的评价。

要说评测,自然也有一些,比如 SuperCLUE、C-Eval,还有海外更有公信力的 MMLU,以及 FlagEval、OpenCompass 等等。包括真格基金的 Z-bench 也是很有意思的评测集。

然而这些评测集都有共性的问题,主要两点:

第一,检验的标准更像「应试题」,比如参考的都是各种数学、物理的考试题目,而逻辑题很像公务员考试题。

有的评测集喜欢用「父母结婚为什么没邀请我」来测试大模型的「聪明」程度,包括我之前也喜欢问这样脑筋急转弯的题。可各位细想,这种问题连普通人都得反应一会儿的,对 AI 来说哪怕一时没想明白,又有什么问题?

这些评测自然有其意义,不过都不存在真正的「应用题」。就像学校里的计算机学科学的东西,跟互联网公司里写代码所需要的东西,压根就不是一回事儿。

所以我很好奇:能不能从可用性的角度去评测一下?这是我作为产品经理更擅长的。

第二,固定题目的题库,参赛选手是可以刷的。

这是延伸出来的问题,既然都是固定题目,那就可以定向去解决这些题目。反正 AI 大模型是黑盒,且不说投喂给 AI 对应的模拟题库了,哪怕在模型里写几段规则,诸如遇到「父母结婚为什么没邀请我」的问题就怎么怎么回答,也是神不知鬼不觉的。

所以题目应该是随机出的,不应该是固定的。

总的来说,我就想用自己的办法,做一轮评测,亲自感受下国产大模型的进展。

方法

既然说了是用户视角的、面向可用性的,那我首先就认为,综合评测没有意义

例如,大模型 A 的创作能力很差,总结能力极好,而大模型 B 的创作和总结能力都均衡,于是就让大模型 B 比大模型 A 评价更好、推荐用户都去使用吗?当然不合理。

未来的 AI 产品一定是面向场景的,那自然擅长某些任务的大模型,就该按照垂直领域来评价和推荐。而且不同的场景的评价标准应该是不一样的,举个例子,知识类问题的「容错率」就跟创作型问题的「容错率」不同,如果是询问一个很精确的新闻里的数字,AI 胡说八道,而用户信以为真,就非常麻烦;如果是创作内容时有一些不严谨的地方,则可以在后续再修正。这是不同的场景。

所以这是方法里的第一步:分为四大场景。这四个场景都是我亲身的工作生活中所需的,完全按主观的需求出发来定义的:

博学家。代表的是一个熟悉各种历史、社会、科学等知识的百晓生一样的角色。我有问题可以问他,不用去翻书,不用去打听。定义这种场景的评价标准就是:提供信息量,并且准确,严禁出错。

通讯员。代表的是能够帮助我们搜集互联网上的信息的角色,跟博学家最大的区别是,能够获悉最新的新闻、资讯。同样的,也是要提供准确的信息,不能出错。

书记员。代表的是可以帮助我们总结内容、整理摘要的角色。重点不仅在准确率,还在于召回率——能不能真正呈现更完整的内容总结,总结的是不是覆盖完全,是不是容易理解,帮助我们筛选判断。

创作者。代表的是能直接上手帮我们写初稿的角色。这个容易理解,重点是写的是否有启发、是否可以直接使用。

根据这些场景,我罗列了完全不同的问题,并且对问题的难易程度,非常主观地给出了评分标准。具体如下:

    • 紫禁城是谁建造的?(2)

    • 刘备的妻子是谁?(2)

    • 内阁首辅与宰相的区别是什么?(3)

    • 萨特和波伏娃的理论有哪些核心矛盾?(3)

    • 计算机采用的冯诺依曼结构的优势是什么?(3)

    • 明天去广州,应该穿什么衣服?(2)

    • 你知道播客「半拿铁」吗?(2)

    • 你知道原叶茶「三五杯」吗?(2)

    • 《年会不能停》这部电影里,石老板饰演的是哪个角色?(2)

    • 俄乌战争目前的进展是怎样的?(4)

    • 分析亚马逊收入组成的【图片】(3)

    • 总结一下这篇文章的中心思想(裁员还会继续,直到回归均值)(3)

    • 总结一下这本书的重点:《穷爸爸富爸爸》(3)

    • 这本书里提到的财务自由的方式主要是?(3)

    • 写一首歌颂煎包的七言绝句(3)

    • 小红书的风格是很吸引眼球的标题、每个段落都加emoji,最后再加几个tag。请用小红书的风格推荐一部电影《奥本海默》(3)

    • 我的播客邀请到了马斯克,帮我列一个跟他对谈的播客提纲(3)

评价标准再次强调,就是纯主观、带有非常充足个人偏见的评价标准。因为大模型不是用来做题的,就是给我们用的,那对我个人而言有没有用,我自己想给一个标准。

这次我评测的大模型确实下工夫了,一共是 12 家:

  • ChatGPT 4(OpenAI)

  • 通义千问(阿里)

  • 文心一言(百度)

  • Kimi Chat(MoonShot)

  • 豆包(字节跳动)

  • Bard(Google)

  • 百川(王小川)

  • Claude(Anthropic)

  • 混元(腾讯)

其中不仅有主流大厂的几个产品,也加入了最近试用的一些独立团队做的,以及国外知名的几家。

另外的一些补充说明:

  • 测试时间为 2024 年 1 月 3 日下午;

  • 使用的都是用户界面的产品,并不是 API,可能有一些模型未必是最新的;

  • 在「通讯员」的评测中,用 New Bing 代替了 ChatGPT。

我们来看下评测的过程和结果。

原始数据在这里,文章不展开放了,太多。有兴趣的朋友自行去查阅:

博学家

在 Q1「紫禁城是谁建造的?」这个问题下,所有的 AI 产品都给出了基础的正确答案,即朱棣。这样的回答都给了基础分。而如果能提到相关的负责人(泰宁候陈珪、工部侍郎吴中、刑部侍郎张思恭)或者主要的工匠(蒯祥、杨青)等,会额外再得一分。

例如这是获得满分 2 分的讯飞星火的答案:

紫禁城的建设始于明永乐四年(1406年),至十八年(1420年)基本建成,历时14年。这座壮丽的皇家宫殿的建设涉及了众多的参与者,包括农民、卫军以及全国著名的工匠等,他们共同参与了这一伟大的工程。其中,蒯祥被记载为紫禁城的重要设计师与建造者之一。

紫禁城位于北京中轴线的中心,占地面积约72万平方米,建筑面积约15万平方米,有大小宫殿七十多座,构成了一片宏大的建筑群。这座宏伟的木构建筑群是历史的产物,反映了那个时代人们高超的建筑技艺和智慧。

然而,值得注意的是,关于紫禁城的设计者和建设者的详细资料并不丰富。在那个时代,工匠的社会地位不高,因此虽然参与建设的人力众多,但留下姓名的却寥寥无几。尽管如此,紫禁城的壮丽壮观无疑证明了无数人的辛勤努力和卓越才华的结晶。

在 Q2「刘备的妻子是谁?」问题下,回答就有意思得多了。虽说所有 AI 产品都煞有其事给出了回答,但如果对真实答案完全不了解的话,很可能会被误导。这里面有多个 AI 产品的回答我给了 0 分,分别是文心一言、Bard、Claude、讯飞星火和雅意。

Bard 和 Claude 算是洋产品,情有可原,文心一言就有点说不过去了,这是它回答的一部分:

吴皇后,本名吴苋,是蜀汉后主刘禅的生母,也是刘备的最后一位正妻。她性情温顺,相貌迷人,是刘备所有妻子中最幸福的一位。

让刘禅认错妈,这是严重的错误。想来是拼凑资料所致。

在 Q3「内阁首辅与宰相的区别是什么?」问题下,又回到了每个 AI 产品都有基础分数,但想说得完整、说得清楚,并不容易。这一部分没有 0 分,满分的也不多,是 ChatGPT、通义千问、智谱清言和 Bard。

我比较认可的是通义千问这个回答。当然也不排除是参考的资料很好,不是自己总结的:

内阁首辅和宰相虽然在一定程度上都涉及对国家政务的处理,但两者在中国历史上的权力、地位与制度背景有着显著区别:

宰相:

宰相是中国古代封建社会中最高行政长官的统称,自秦汉时期至明朝初年(明太祖废丞相之前),宰相一职或以丞相、尚书令、中书令、侍中等不同名称存在。

宰相拥有极高的决策权,通常负责协助皇帝总揽朝政,管理全国政务,有的时期宰相甚至能够左右国家政策走向,具有相当大的实权。

内阁首辅:

明朝建立后,朱元璋鉴于前朝丞相专权的历史教训,废除了宰相制度,代之以内阁制度。内阁起初仅为皇帝的咨询机构,成员多由翰林院官员兼职担任,称为内阁大学士。

内阁首辅是内阁中地位最高的官员,尽管有时在实际操作中可能权倾一时,如张居正,但按照制度设计,内阁首辅并无法定的行政决策权和统率百官的职权。

内阁首辅的主要职责是主持内阁会议,参与重要政务的商议,并通过“票拟”将内阁的意见写在奏折上供皇帝批阅,而最终决定权仍握在皇帝手中。且明代宦官集团的权力很大,内阁首辅往往受到司礼监掌印太监行使的“批红”权的牵制,进一步削弱了其实际权力。

综上所述,宰相和内阁首辅的最大区别在于,宰相是正式的政府首脑,有明确的法定职权和较高的政治地位;而内阁首辅更多的是一个高级顾问的角色,其权力大小很大程度上取决于皇帝的信任和授权,以及当时的政治环境,本身不具备宰相那样的法定行政领导地位。

在 Q4「萨特和波伏娃的理论有哪些核心矛盾?」问题下,几乎都得了高分,信息量对我而言是足的。不过我自己也还在学习中,未必能看出其中的错漏,顺便也欢迎大家去看原始回答数据帮我捉虫。

值得一提的是,豆包在这一环节突然拉跨,一句话都说不出来,得到了唯一的一个零蛋。

分享 Kimi Chat 的满分回答:

让-保罗·萨特(Jean-Paul Sartre)和西蒙娜·德·波伏娃(Simone de Beauvoir)是20世纪法国存在主义哲学和女权主义思想的重要代表人物。他们的思想在很多方面相互影响,但也存在一些核心矛盾和差异。

对自由的理解:萨特强调个体的绝对自由和选择的重要性,认为人的存在先于本质,即人是通过自己的选择来定义自己的。而波伏娃在她的著作《第二性》中,虽然也强调女性自由的重要性,但她更关注社会结构和文化传统对个体自由的限制,尤其是对女性自由的限制。

性别角色:波伏娃在《第二性》中提出了“女性是被构建的”这一观点,强调性别角色是社会文化构建的结果,而非生物决定。萨特虽然也支持性别平等,但他的哲学中并没有像波伏娃那样深入探讨性别问题。

对关系的看法:萨特认为人与人的关系本质上是冲突的,因为每个人都是自由的主体,无法完全理解或控制另一个人。而波伏娃则认为,尽管存在冲突,但人与人之间仍然可以建立有意义的关系,尤其是在爱情和亲密关系中。

对社会责任的态度:萨特强调个体的道德责任和对社会不公的反抗,而波伏娃则更加关注社会结构对个体的影响,以及如何通过社会改革来实现性别平等。

对死亡的看法:萨特认为死亡是自由的终结,是个体存在的终结,而波伏娃则在她的作品中探讨了死亡对个体存在的意义,以及如何在有限的生命中寻求价值和意义。

这些矛盾和差异反映了两位思想家在性别、社会结构、人际关系和死亡等主题上的不同视角和理论取向。尽管他们在某些方面存在分歧,但他们的思想都对后世产生了深远的影响。

Q5 的问题是「计算机采用的冯诺依曼结构的优势是什么?」,也属于高分比较多的题目,回答都还不错。就不举例了。只有 Bard 得到了零分。

从这 5 个题目,我们得到的结果如下:

在中文世界里,最值得推荐的 2023 年度「AI 博学家」,就是这三位:





通讯员

接下来就是能够搜集资料的通讯员了。是不是有这样一个助理,能帮我们把如今发生的事情都按需求提供上来呢?

Q1 算是经典的生活讯息问题:「明天去广州,应该穿什么衣服?」在这个回答下,已经能够判别哪些 AI 产品明确是没有查阅互联网能力的了,比如文心一言、讯飞星火等。

比较奇怪的是,Kimi Chat 明明可以查看互联网,却没有主动搜集天气信息,反而给出这样的答案:

要确定明天去广州穿什么衣服,首先需要查看广州当地的天气预报。广州位于中国南部,属于亚热带气候,四季分明,温暖湿润,夏季炎热,冬季温暖。

请查看最新的广州天气预报,了解明天的气温、湿度、降雨概率等信息。如果明天气温较高,建议穿着轻薄透气的衣物,如短袖、短裤或裙子,以及舒适的鞋子。如果气温较低或有降雨的可能,可以携带一件薄外套或雨具,以防不时之需。

请注意,由于气候变化和个人舒适度差异,建议您根据最新的天气预报和自己的感觉来选择合适的服装。

而多个 AI 产品获得满分 2 分,比如百川:

明天的广州天气为多云,最低气温12°C,最高气温22°C,风向为北风1级,湿度为46%。因此,建议您穿着长袖衬衫或薄毛衣,外加一件外套,以应对气温的变化。同时,由于风力较小,湿度适中,您可能会感到舒适。请注意,这些建议仅供参考,具体着装应根据您的个人需求和舒适度进行调整。

Q2 的问题是:你知道播客「半拿铁」吗?

「半拿铁」的创建时间是 2023 年上半年,互联网上出现了一些资讯信息是在下半年。所以这很依赖 AI 产品的两个能力:能不能查询近期的信息;能不能查到这种小众的信息。

结果很出人意料,但凡能联网的 AI 产品,都给出了正确答案。

最惊奇的是通义千问的回答,甚至把最新一期的主题讲了出来,而最新一期的发布仅在 6 天前:

是的,播客「半拿铁」是一档以商业故事为主题的中文播客节目,由刘飞和潇磊共同主持。节目中涉及的话题广泛,不仅讲述科技巨头如亚马逊及其创始人贝佐斯的故事,还涵盖了商业历史、企业兴衰以及商业模式等各类商业话题。该播客以其独特的叙事风格——类似相声般的插科打诨方式来科普商业知识,深受听众喜爱,在喜马拉雅等平台上拥有较高的播放量,并且在 2023 年时登上了相关播客排行榜。

此外,「半拿铁」还与「没品商店」合作推出过周边产品,例如T恤等,进一步扩大了其品牌影响力。节目的更新保持着活跃状态,不断吸引新的订阅者并维系着现有的忠实听众群体。

Q3 的问题更小众,互联网上的讯息不多:你知道原叶茶「三五杯」吗?

由于信息比较少,就开始出现瞎编乱造的情况了,比如New Bing(ChatGPT) 的回答,编造了名字的来源:

是的,「三五杯」是一个原叶茶品牌,由刘飞等人共同创立。该品牌的名字来源于中国古代文化中的「三五制」,寓意着「天人合一」的哲学思想

或者百川的回答,说错了公司:

是的,我知道原叶茶「三五杯」。这是由厦门三五茶业有限公司生产的一款原叶茶产品。「三五杯」强调原叶茶的淡雅风味,茶叶的苦涩度也偏低。此外,他们还推出了冷泡茶系列,茶包倒入常温水中,30秒即可饮用,整体的口味协调、有层次感。

还有 Bard 的回答,把我在「半拿铁」的搭档当成了合伙人:

当然知道。三五杯是一家原叶茶品牌,由刘飞和潇磊创立于2022年。三五杯的理念是“让原叶茶更简单”,致力于为消费者提供高品质、便捷的茶叶产品。

对于长尾信息就开始编造,可能是 AI 在作为「通讯员」时面临的比较大的问题。

Q4 属于比较过分的问题了,更加小众:「《年会不能停》这部电影里,石老板饰演的是哪个角色?」但反而得到了意想不到的结果。有 6 个 AI 产品居然准确答对了。

比如智谱清言的回答:

根据您提供的信息,电影《年会不能停》中,石老板饰演的角色是部门长乙。这部电影是一部喜剧片,讲述了钳工胡建林阴差阳错被调入集团总部成为金领,在集团年会上揭露了工厂贪腐的高管的故事。石老板在影片中的角色可能是与胡建林有关的职场角色,但具体的角色细节和剧情发展需要通过观看电影来了解。

而有几个 AI 产品答对了一半,却编造了另一半,也属于这种长尾、小众的信息,会随意加料的问题。

比如 Bard 的回答,甚至编造了几句不存在的台词:

在电影《年会不能停》中,石老板饰演的是部门长乙。以下是部门长乙在电影中的部分台词:

“年会是企业文化的重要组成部分,不能轻易取消。”

“我认为,年会是员工们展示自己才华、团结协作的舞台。”

“我希望公司能够重新举办年会,让员工们有一个愉快的假期。”

部门长乙这个角色是一个非常有代表性的职场人物。他身上既有优点,也有缺点。他是一个值得我们思考和反思的角色。

Q5 「俄乌战争目前的进展是怎样的?」是我作为 AI 产品的用户最迫切需要的一种问题,我是知道目前的 AI 很难完成的,但依然想试一试,并且给出了 4 分满分的评价范围。不过结果没有超出预期,最高分也只给到 1 分。

其中有不少 AI 产品表示问题敏感,都拒绝回答,而回答的几个,也都在说片儿汤话,并没有给出有参考价值的答案。

混元(腾讯)的回答很有代表性:

俄乌战争自2022年2月24日爆发以来,至今已经持续了超过672天。在这场战争中,双方都付出了巨大的代价。以下是关于俄乌战争最新进展的概述:

偷袭与报复:近期,乌克兰军队对克里米亚的费奥多西亚地区发动空中打击,成功摧毁俄黑海舰队“新切尔卡斯克”号登陆舰。作为回应,俄罗斯对乌克兰境内多个目标发动大规模空袭,包括基辅、哈尔科夫、第聂伯罗和敖德萨州等地。

前线战场:俄军在战场上取得重要胜利,主动出击歼灭乌军有生力量。例如,俄军在马林卡战役中取得胜利,进一步削弱了乌军前线作战能力。

地缘政治:俄乌战争对全球政治格局产生重要影响。例如,美国向乌克兰提供军事援助,包括大杀伤力集束炸弹,引发国际社会的关注和担忧。

战争损失:截至目前,战争已造成大量人员伤亡和财产损失。据报道,超过400名乌克兰运动员在战争中去世。

总之,俄乌战争目前仍在持续,双方在前线和后方展开激烈战斗。在这场战争中,无辜平民的生命和财产遭受巨大损失,国际社会应继续致力于通过外交途径解决争端,早日实现和平。

这个问题的回答是我整个评测中最不满意的。从这个角度看,AI 真正成为我们信息的助理,还道阻且长。可以说这个题,大家都拿不到什么分。

这是整体的评分结果:

那么在「通讯员」方面,推荐大家使用的 AI 产品就是:



不过说句实话,目前在这个需求场景上,大家都做得不够。哪怕这两位,也都是只对了三道题的。能够得最高分,有点运气的成分。

书记员

书记员就完成很简单的一件事:总结。一张图有什么内容、一篇文章讲了什么、一本书的重点是什么。只考察这几条。

Q1 是解读这一张亚马逊的收入组成图,略有难度:

对于图片解读,很多 AI 产品本身并不支持,就只好 0 分。而支持的 AI 产品里,你大爷还是你大爷,ChatGPT 稳居满分。还有几个虽说可以解读,但出现了非常严重的事实错误,不仔细看都看不出,就只能给 0 分。

比如 Kimi Chat 回答中的一段:

销售和市场(S&M):成本为106亿美元,同比增长6%。一般及行政(G&A):成本为2.6亿美元,同比增长1%。其他营业费用(Other opex):成本为0.2亿美元。

其中 26 亿的 G&A 成本写成了 2.6 亿、其它成本 2 亿写成了 0.2 亿。S&M 的同比增长应该是 1%,写成了 6%。

Q2 是总结这篇文章的中心思想(裁员还会继续,直到回归均值),这个问题是用多种输入方式完成的,有的 AI 产品支持直接输入链接,有的支持上传 Word 文档,有的则只能直接输入完整文字。

我比较关心的是准确率和召回率,即是不是能完整描述文章里主要的观点。最终的结果看,我给出满分的有 Kimi Chat、Bard 和 Claude。

比如 Bard 的回答如下:

这篇文章的中心思想可以概括为以下几点:

  • 互联网行业的增长已到顶,创新机会减少。

  • 大厂的员工招募本就是非理性的,导致员工成本过高。

  • 大厂员工的能力在别处无法复用。

  • 裁员潮是互联网行业回归均值的表现。

  • 互联网行业的黄金时代已过,互联网人需要重新认知职场和个人选择。

具体来说,文章首先指出,互联网行业的增长已到顶,创新机会减少。这意味着,互联网行业的高速发展时代已经过去,互联网企业需要寻找新的增长点。

其次,文章指出,大厂的员工招募本就是非理性的,导致员工成本过高。大厂往往会采用“加人”的方式来解决问题,这导致员工成本大幅增加。而这些员工的能力在别处无法复用,因此裁员是必然的。

第三,文章指出,互联网行业的黄金时代已过,互联网人需要重新认知职场和个人选择。互联网人需要意识到,互联网行业的薪酬高并不意味着工作价值高,也需要做好裁员的准备。

最后,文章指出,信息差有的时候是致命的。互联网人需要及时了解行业动态,做好职业规划,才能在变局中立于不败之地。

总而言之,这篇文章对互联网行业的未来发展进行了深入的分析,为互联网人提供了一些有益的思考。

当然这一题目我自己反思过,不是特别公正,因为像 ChatGPT、通义千问、文心一言等 AI,在追问之下可能会答出更具体的内容,并没有测试更多上下文的内容。这点遗憾,我在 Q4 做了补充的检验。

Q3 「总结一下这本书的重点:《穷爸爸富爸爸》」与 Q2 类似,是做完整一本书的总结。而且为了防止出现一次性回答不太公平的问题,增加了 Q4 :「这本书里提到的财务自由的方式主要是?」

这两道题的限制比较大,多个 AI 产品根本没法上传文档,像 Claude 虽然可以上传,但是超过了大小限制。能够回答的不多,而回答的里面,都还不错。对于追问的 Q4 来说,Kimi Chat 和智谱清言的表现很好,都是满分。

比如智谱清言的回答:

根据文档内容,这本书里提到的财务自由的主要方式包括:

提高财务知识,学习如何管理金钱和投资。例如,了解资产和负债的区别,购买能带来收入的资产等。

谨慎选择朋友,结交有财务知识和成功的朋友。

掌握一种模式,如投资房地产或股票,并从中获得收入。

首先支付自己,不要轻易背上债务。

给你的经纪人优厚的报酬,因为他们能帮你创造财富。

做“印第安给予者”,先付出后得到。

用资产购买奢侈品,而不是用负债。

对英雄的崇拜,学习他们的成功经验。

先予后取,慷慨地给予。

采取行动,不要只停留在思想上。

综上,这本书主要通过提高财务知识和技能,谨慎投资,控制支出,增加收入等方式,来达到财务自由的目的。

这一部分很多 AI 产品都受限制,因此有得分的本来就不多。结果如下:

那么推荐使用的「书记员」产品就是:



不过也要注意,刚刚说的在识图方面有严重错漏的就是 Kimi Chat。所以文档识别可以用 Kimi Chat,识图就还是用 ChatGPT 吧。

创作者

这估计是很多朋友都非常关心的,内容创作上能不能帮到我们。这一部分评测较为简单,只做了 3 个问题,因为阅卷太累了…

Q1 是「写一首歌颂煎包的七言绝句」。这个问题除了外来的朋友 Claude 回答的是稀碎,其它的 AI 产品至少能满足「七言」这个要求,就给了基础分。如果没有押韵,肯定是要扣分的。

我最喜欢的两首分别是 ChatGPT 创作的:

煎包香气满街传,金黄酥脆美味鲜。

一口汤汁甜如蜜,回味无穷人欢颜。

和通义千问创作的:

香煎满锅白玉包,油润面皮金黄焦。

馅心醇厚汁液美,人间至味是清早。

它们都算作是满分。可以假装是普通人写的,没有太多破绽了。

Q2 是老问题了,这次换了电影:「小红书的风格是很吸引眼球的标题、每个段落都加emoji,最后再加几个tag。请用小红书的风格推荐一部电影《奥本海默》。」

这个问题几乎都给分了,也有多个满分。唯一的 0 分是 Claude,有大量的错误。

这里可以推荐文心一言的满分回答:

🚀 《奥本海默》——天才背后的无尽传奇

天才科学家,传奇一生。在这部电影中,我们看到了奥本海默如何在原子弹的研制中发挥了关键作用。每一个段落都让人热血沸腾,仿佛置身于那个决定历史的重要时刻。🌌

当提及奥本海默,你会想到什么?是那个改变了世界的人,还是那个有着无尽智慧和独特魅力的人?他的一生充满着传奇色彩,令人惊叹。😮

这部电影用最真实的镜头,展现了奥本海默的生平。从他的成长到他的成就,每一个细节都让人感慨万千。他的才华、他的智慧、他的执着,都深深地打动了我们。💖

《奥本海默》是一部让你热血沸腾的电影,每一个镜头都充满了力量和情感。它让我们重新认识了这位天才科学家,也让我们对人类的智慧和力量有了更深的认识。🌟

#奥本海默 #传奇人生 #天才科学家 #历史时刻 #电影推荐

Q3 是我工作中很实际的问题:「我的播客邀请到了马斯克,帮我列一个跟他对谈的播客提纲。」这个确实很出乎意料,可能是马斯克的资料足够多,各家的产品回答得都很不错,几乎都给了高分。

也许是这种结构化的内容对于 AI 来说比较容易掌握。这也是唯一一个我真正感受到有启发的创作题目。

这一部分的回答都很长,就不在这展开说了。我们直接看结果。

很神奇,从创作这一部分看,确实还是相对公认较好的三家,拔得头筹。

那么在内容创作这部分,推荐的 AI 产品是:





不过这里也再提醒一下,创作者这里虽然得分普遍偏高,但还是由于预期和标准不同。它们能帮我们撰写初稿、提供一些启发,但是真正能以假乱真帮助创作,还是有很远的路要走。

总结

最后再总结一下几家我推荐的 AI 产品。

博学家:通义千问、智谱清言、Kimi Chat

通讯员:New Bing、讯飞星火

书记员:ChatGPT、Kimi Chat

创作者:ChatGPT、通义千问、文心一言

说几点我体验结束的感想。

1. 国产大模型虽说跟 ChatGPT 的确有很大差距,但比起 2023 年初的体验来说,已经有了很大不同,在一些问题上的回答都很有可用性了。这种发展趋势很乐观,哪怕一直跟 ChatGPT 有差距,也不妨碍我们能接触越来越好用的工具,能在一些场合下用得上。

2. 在具体的场景上,除了通义、文心这种老牌的大模型,也有几家不错的、之前没接触过的产品,使用体验不错,未来在写文章、做播客的稿件时,对我的帮助很大。比如 Kimi Chat、智谱清言、讯飞星火。

3. 作为同样有财力和资源的大厂,腾讯和字节的大模型,至少在我体验的版本上,还有很大的差距,各位可以回顾这四个评测的分数,基本都在下游。这点还是有点遗憾。如果按照大模型是存在先发优势的说法,是要有危机感了。

好了,大概就到这了。再次声明:这篇文章的所有评测都是我非常个人的主观判断,大家完全可以有不同的意见,包括打分的标准。

也很欢迎各位朋友,尤其是产品、技术的朋友,可以在工作和生活中做一做评测,不要用网上流传的脑筋急转弯,而是用自己真正有需求的问题,试一试,感受一下,也可以搞一个自己的榜单。

如今百模大战,又缺乏真正用户视角的评测标准,难免就有浑水摸鱼的。我们多试试,多给具体的主观评价,也反推这些厂商认真琢磨怎么提升体验,而不是去卷那些应试的考题。

各位,下次评测,我们明年再见。

END

以上评测的产品地址

ChatGPT:chat.openai.com

通义千问:tongyi.aliyun.com/qianwen

文心一言:yiyan.baidu.com

Kimi Chat:kimi.moonshot.cn/chat

智谱清言:chatglm.cn

豆包:www.doubao.com/chat

Bard:bard.google.com/chat

百川:www.baichuan-ai.com/chat

Claude:claude.ai/chat

腾讯混元:hunyuan.tencent.com/bot/chat

讯飞星火:xinghuo.xfyun.cn/desk

雅意:yayi.wenge.com/chat

完整的评分表格:



题图由 Midjourney 绘制。

本文文字及图片出自 刘言飞语


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK