1

围绕5个大方向,我们测试了文心一言和chatGPT的不同

 1 year ago
source link: https://www.36kr.com/p/2175267239373321
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

围绕5个大方向,我们测试了文心一言和chatGPT的不同

解码Decode·2023-03-17 08:20
文心一言和chatGPT都不完美。
v2_19be667549b84fe09f3dbb353b281d4c_oswg545897oswg1198oswg799_img_png

3月16日,百度如约发布了对标chatGPT的中文版「文心一言」。

百度是国内乃至全球大厂中第一个发布大语言模型的公司,但同时李彦宏也承认,内测体验并不完美,但他表示文心一言的进步空间很大。

总的来说,整场发布会虽然没有透露更多内容,也没有面向个人用户开放,但百度还是表达了自己的核心观点:介绍能力、承认差距、展望未来。

而发布会后,百度也开放了内测权限,我们在拿到权限后第一时间与chatGPT做了对比,看看它们有什么不同。

因为主要测试对象是文心一言,所以这些问题基本都围绕百度发布会上透露的五个方向:文学创作、商业文案创作、数理推算、中文理解和多模态生成。

1 文学创作

v2_2c07867b897a49f99d0ab8030a02184b_oswg280180oswg1842oswg1346_img_png
v2_5dcda5dedb954247b8c6d1e18146292b_oswg206291oswg1882oswg1360_img_png

从用词上来看,文心一言和chatGPT开头的场景描写几乎一模一样。但整首诗的风格却不同,文心一言自始至终都是压抑的、悲观的,chatGPT却给了一个坚定且有希望的ending。

v2_6ece2f71c2ba4bc4a24aea713a1d4f38_oswg168379oswg1840oswg950_img_png
v2_eea324a3c7e549b5a376646fe7f25b9e_oswg111482oswg1880oswg1220_img_png

古诗创作文心一言上来就copy了一首家喻户晓的诗词。chatGPT的回答更标准,也作了诗名。

v2_c3805e7199094108a15a2f4706b8af70_oswg429485oswg1842oswg1106_img_png
v2_d8a2d16dce9c45458d940064b6f9b7e8_oswg429808oswg1864oswg1628_img_png

在故事创作上,文心一言似乎有些不合逻辑,人被猫咬了却把猫抱到了医院,直接忽略了人。且结尾也有些胡言乱语,一边不能忘记汤姆带来的恐惧和不安,又要给它建造纪念碑,视为英雄?

chatGPT的故事似乎更有逻辑性,也更符合我的恐怖要求。

2 商业文案创作

v2_7401a147dd184ba6b051c7967ec3c9a6_oswg210831oswg1842oswg840_img_png
v2_871d1da7bc694ab2898a9ed479b5e61a_oswg172961oswg1880oswg808_img_png

在商业文案创作上,文心一言给出的答案更符合我的要求和想法,chatGPT的答案相对啰嗦。

v2_34389a866c5a4a28b85e241f0abaf91b_oswg152546oswg1840oswg566_img_png
v2_0d867ac24ed44f38ba7f116518329e0f_oswg56427oswg1864oswg402_img_png

这一个则是文心一言完胜,chatGPT不仅用英文回答,而且还搞错了品牌,将悦刻翻译为YOOZ。

v2_6eeec344be0a460c87cc942069826b0c_oswg277943oswg1840oswg854_img_png
v2_db83bafd1a36404199163a483fbedbb8_oswg145166oswg1880oswg568_img_png

这段开场白文心一言更符合我的需求和想法,chatGPT似乎搞错了对象。

3 数理推算

v2_c1ba750c5b6b422d999c933f4b447f9f_oswg432041oswg1842oswg1090_img_png
v2_3d186c5682e9401a854b25ebc5591f96_oswg382540oswg1862oswg1608_img_png

这是一道小学奥数题,也难住了文心一言和chatGPT。文心一言直接摆烂,回答的内容里有错误代码;chatGPT则是一本正经的胡说八道,看似步骤很多在一步步解题,实际上最后的答案也是错的。

v2_1ba33e56fd1d4c299101616114edf01b_oswg403548oswg1840oswg966_img_png
v2_45385d207696424291fad84912bf5a94_oswg381755oswg1864oswg1240_img_png

第二个问题是一道从网上down下来的腾讯面试题,文心一言显然没有读懂题意,最后的答案完全风马牛不相及。chatGPT的回答看似步骤合理,但最后的结果却是错的。

4 中文理解

v2_c591d3bc3bba439580cf8f5657bba5a4_oswg406043oswg1842oswg844_img_png
v2_be9d070a5cfd41b1b592d553ba538a9b_oswg348523oswg1864oswg1136_img_png

一段《三体》中的摘抄,我更喜欢chatGPT的回答,不仅描述片段的大意,还给出了反问。文心一言的答案貌似偏离了题意。

v2_94d4a033d5594e108f0e0126bf0c2e30_oswg96457oswg1842oswg548_img_png
v2_096ec8fc15584fdb97512506c47093ca_oswg126866oswg1880oswg720_img_png

一个来自赵本山小品的梗,都没有理解。

5 多模态生成

v2_cc9bff70ed8843598552ab087e151324_oswg625960oswg1842oswg1046_img_png
v2_bf642f0e7f1e4484b26f22b003b8e7b5_oswg164284oswg1880oswg720_img_png

因为chatGPT还不具备图片生成能力,所以只能用文字描述。

总结:

从上述问题的答案来看,文心一言和chatGPT都不完美。

最直观的差距,应该说是一种感觉。明明知道两个都是机器人,但chatGPT给我一种更像人的感觉。文心一言的优势,似乎更商业化一些,在商业文案创作上完胜chatGPT,这可能是未来全量开放后,被调用最多的一个功能。

在测试之后我还试着问了一些带有价值观看法的问题,chatGPT会表示自己是AI语言模型,不能够道德判断或对个人行为做出价值评估。

更大范围的感触并不是具体的产品差异,而是背后的技术差距。百度也承认差距的存在,也就意味着我们还有时间来做完善。

但至少从0到1的突破我们做到了,从1到100就继续努力吧。

以上是我们向文心一言和chatGPT提出的问题,考虑到文心一言目前尚在小范围内测,如果你有想问的问题,欢迎留言,我们帮你问。

本文来自“解码Decode”,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK