4

究竟是ChatGPT还是ChatPPT?我们和文心一言聊了聊

 1 year ago
source link: https://awtmt.com/articles/3684294
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

究竟是ChatGPT还是ChatPPT?我们和文心一言聊了聊

于惠如 发表于 2023年03月17日 11:32
摘要:在和文心一言侃大山的过程中,它时而疯狂、时而理性,甚至学会了“小聪明”。但可以感受到的是,这位不完美小孩正在悄悄努力,等待惊艳众人。

本文来自全天候科技,阅读更多请登陆www.awtmt.com或华尔街见闻APP。

封面图由文心一言对自己的自画像指令生成

作者|于惠如 编辑|罗丽娟

顶着GPT-4的压力,百度在昨天推出了自己的新一代大语言模型、生成式AI产品文心一言。

百度创始人、董事长兼CEO李彦宏坦诚,文心一言还算不上完美,但因为“市场催生”,百度选择在此时发布。

发布会现场,李彦宏用提前录制好的视频展示了文心一言的文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等五方面功能。

在录制好的视频里,文心一言帮刘慈欣续写了《三体》,介绍了洛阳纸贵背后的经济学原理,算了鸡兔同笼数学题,根据指令生成了海报和一段宣传视频。

真实的文心一言表现究竟如何?可以PK ChatGPT还是只是ChatPPT?全天候科技与“文心一言”聊了聊。

天才和疯子间的“一步之遥”?

让我们先来看看文心一言是如何介绍自己和竞品的。

eae224b2-53ae-454b-9510-af63cb07154d.png
1bb37851-d47e-4579-adc7-329f4277cc78.png

至此,文心一言的表现令人满意,它准确清楚地回答了问题。

不过,当我们继续追问,它开始一本正经的“胡说八道”。

面对“你和李彦宏是什么关系”这个基础事实性问题,文心一言“野心”不小。它回答:自己和李彦宏都是百度的创始人,它负责管理产品技术相关的业务,而李彦宏主要负责战略和执行方面的工作。

6e117690-d0d2-4781-8218-9da227c86fe9.png

当我们让他以百度CEO的身份来回答媒体问题时,可谓是相当官方。似乎说了又似乎没说,试图划水掩盖了其“假CEO”身份。

d95cdb60-b860-4506-8406-ce2bb65c8e9b.png

当我们想让它用一幅画来描述它自己时,它又开始胡说八道。说自己是一位才华横溢的画家,甚至编造了这位画家作品的特色。

9edf6f60-7212-4c85-95f6-507b66930a7e.png

虽然疯狂,但是看得出文心一言也有相当的进化速度。

在昨天的一条测试内容中,针对提问者的故意设坑,文心一言显然未能避开,甚至给出了让人匪夷所思的答案。

03878906-0bc5-46e5-ad6a-9f7a2401b147.jpeg

但在今天问出同样的问题时,它已经走上了正道:

840aa48d-74cb-443f-a190-54b5048ad550.jpeg

让它评价自己时,文心一言的“智商”又回归了。面对“怎么看自己不完美”、“怎么看网友评价PPT”,以及“自己是否认为自己是PPT”三连问,文心一言不仅顶住了压力,还表现的“不卑不亢”。

60eb96af-24a5-4be0-8642-d4fd95588b29.png
816c4ce1-ec52-48b7-aa62-896c44854578.png

它给上述三个问题的答案相似。坚持称自己没有情感和意识,不能对自己的完美程度进行评判,但是它可以理解人们对完美的追求,并表示自己在不断学习和改进。态度可以说是相当谦逊。

帮手还是猪队友?

接下来,我们让文心一言展现了它的文学创作能力——写一首介绍它自己的诗。

b0c78695-83d0-48e9-9515-9f980d26ff15.png

显然,文心一言没有听懂这个指令,它没有介绍它自己,而是以“自我”为主题,写了一首“夸夸现代诗”。结尾它还非常贴心的表达了对人的鼓励。

当我们将指令更加明确化,提出让它写一首诗介绍文心一言时,它来了一首四言藏头诗,算得上有才华。

efba4352-d584-4809-a57c-fc58348d23ea.png

接下来,我们试了试它的商业文案创造能力——我们让它帮忙写一篇百度发布文心一言的新闻宣传稿。别说,它的表现还不错,时间、地点、事件等新闻稿必备的基本要素它都满足了。

结尾,它还不忘提醒读者参加发布会,体验产品。满足新闻性的同时,也符合了宣传定位。

658c9aa5-7a17-4d58-bf5f-ab8e9ea79c72.png

随后,我们告诉它我们要采访李彦宏,请它帮忙列一份提纲。它似乎又有点“聪明过头”了,不仅列出了采访题目、采访人和被采访人、采访引言,还详细列出了包括问题和答案内的采访正文。

简单点说,文心一言不仅帮我们列好了采访提纲,还帮李彦宏回答了问题,甚至帮我们写好了稿子。如果要给这份采访采访提纲打分,它也能得到及格线以上的分数。四个问题中,只有第三个问题略显重复与矛盾。

3bbd0e23-e9f0-45ce-af6c-404388cf2f88.jpeg
也许数理化不错,但文史“够呛”

昨天的发布会上,李彦宏借助文心一言对“洛阳纸贵”的含义、对应的经济学理论的理解,展示了其中文理解能力。在提前录好视频中,文心一言表现的像极了一个博学多才的国学大师。

但当实际测试时,我们发现文心一言没有我们想象的那么“博学”。在提问中故意挖坑时,它没法识别出来,会很容易掉进坑里。

比如,当我们“张冠李戴”问它曹操三顾茅庐的故事,它没有指出指令的错误,还一本正经的给出了答案。故事的脉络没错,主人公却被我们用错误的指令误导了。

3603bb4b-71e1-49d6-9214-68fef7e658ca.png

当我们继续追问:“三顾茅庐的曹操吗?”文心一言变成了一个懂得变通的“野史学家”。它用“民间有另一个说法”提供了正确答案,去三顾茅庐的是刘备不是曹操。

不过,讲完这句后,它仍然套用了前一次的答案,认为主人公是曹操。总体来说,从这条回答中可以看出,文心一言的文史还需“补课”。

1d01e28d-0bcb-4812-9762-382beb3ae6ce.png

“你觉得你的回答对吗?”在面对这个拷问时,文心一言又听不懂了,开始强调自己是一个人工智能语言模型,不会对自己的回答产生情绪上的偏向或者满意度,但是会努力提供最准确和有用的答案。

c48d43d5-b4e2-401d-a18d-c032b4270d3e.png

这个场景似曾相识有没有,当你和人工智能客服吵架时,它是不是也是这样的表现?

多模态表现还有待进化

在多模态生成方面,文心一言表现地仍不够完美。

当输入内容“设计一张新能源汽车的海报”时,文心一言的理解能力似乎还跟不上。它生成的不是海报图片,而是一段文字版的设计意见。结尾还来了个示例,提醒你需要什么样的指令。

不过,当我们在“设计一张新能源汽车的海报”这句话前面明确加上:“画一幅画”时,文心一言“又行了”生成了一张汽车图片。

9c195fbb-b105-4204-b151-207f89516ebd.png

另外,对于带有关键词的简单图片,文心一言完成得也不错。

282d553c-f74b-4660-a619-d55a0af55db0.jpeg

李彦宏昨天提到,因为成本较高,文心一言的视频生成能力,现阶段还未对所有用户开放,未来会逐步接入。实际测试时,文心一言也承认,自己“没有生成视频的能力”。

60df74a1-0453-4f8b-a1f7-17d279972b3b.png

整体来说,文心一言的表现确实“算不上完美”,有时候胡说八道,有时候答案基本达标,但它确实也没有那么差。

一位AI领域的从业人士此前告诉全天候科技,AIGC太重要了,无论国内做得如何,都得先有一个产品出来。

对于百度和文心一言,我们应该给予包容:“文心一言不需要碾压ChatGPT,如果满分是100分,文心一言只要能做到超过及格线,就很不错了。毕竟这才是第一代产品。”

那么,你给文心一言打几分呢?

0aa7dfd8-7b20-4c78-aa42-f612d805f57d.png
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK