6

我们内测了文心一言,结果令人意想不到

 1 year ago
source link: https://www.woshipm.com/ai/5784254.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

我们内测了文心一言,结果令人意想不到

2023-03-17
1 评论 1062 浏览 0 收藏 12 分钟
释放双眼,带上耳机,听听看~!
00:00
00:00

3月16日下午,百度新一代大语言模型文心一言发布了。根据发布会上的展示,文心一言具备五种能力,分别是文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成,本文作者在进行测试后,对这五种能力进行了分析,一起来看一下吧。

pNkxw2cdSOK1dSjuGnnS.png

文心一言的初体验,确实还没ready。

硬着头皮也好,万众期待也罢,北京时间3月16日下午,百度新一代大语言模型文心一言发布了。

怎么说呢,虽然一开始就知道可能会输给GPT-4(李厂长自己说:这个门槛有点高),但还是盼着文心一言好,盼着百度好,盼着中国首个生成式AI产品好。

但伴随着发布会的,是百度港股市值的大跳水,虽然最后回调了一波,但二级市场对中国版“ChatGPT”似乎信心不足。

我们内测了文心一言,结果令人意想不到

发布会期间百度股价实时数据

即使吸取了谷歌发布Bard时的前车之鉴,用提前准备好的录制视频展示,但依然没能阻止股价受挫。反而李厂长的皮带链接和容颜青春永驻,成了弹幕留言关注的焦点。

据百度透露,文心一言新闻发布会后三小时,企业版API调用服务测试的企业用户达6.5万,与百度智能云基于文心一言展开合作咨询达到5590条。

01 测试开始,有惊有喜

根据发布会上的展示,文心一言具备五种能力,包括了文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

硅兔君拿到了内测邀请码后,第一时间开始了测试。

1. 文学创作

发布会紧跟潮流,用最近热度上的《三体》,对文心一言的文学创作进行展示。提出的6个问题,文心一言都可以从容应答。

硅兔君用《哈利波特》再考了考他(毕竟都是史诗级巨作)。

对于《哈利波特》的创作背景和作者简介,文心一言刚开始给了一个“省事”的答案。

我们内测了文心一言,结果令人意想不到

但我并不满意,又问了一遍,这个版本就明显学术了很多。

我们内测了文心一言,结果令人意想不到

紧接着我问了发布会上同样的问题,让文心一言为续写《哈利波特》提供思路,答得还可以。

我们内测了文心一言,结果令人意想不到

硅兔君又问了个比较八卦的感情线问题:赫敏和哈利波特之间,有爱情吗?

文心一言给出的答案建议各大明星经纪公司参考一下,以后回应恋情别只会发律师函。

我们内测了文心一言,结果令人意想不到

2. 商业文案创作

针对商业文案创作这块,硅兔君就拿自己做个测试,提问:

如果要新建一个关于硅谷科技创投新闻的自媒体账号,融入“兔”这个字,可以给账号起个什么名字?

我们内测了文心一言,结果令人意想不到

文心一言给出的答案其实挺赞,考虑到硅谷的属性,甚至也有英文的名字。

VentureBuddies这个名字你别说,你还真别说~

在我给这个名字予以肯定后,让文心一言帮我写个简介,画风直接变成了英文,不过直接给我安上了“最近在居家办公”的设定,不知为何。

我们内测了文心一言,结果令人意想不到

说实话不咋地,乱七八糟的。

3. 逻辑数理

逻辑数理推算是生成式大模型的一道坎儿,不仅考数理,更考逻辑。

发布会上用了ChatGPT刚上线时翻车过的的鸡兔同笼,文心一言能发现问题中的错误并在纠正后正确回答出来。

可当硅兔君尝试问了几个小学生逻辑数学题,文心一言翻车了!

张老师15年前15岁,15年后多少岁?

我们内测了文心一言,结果令人意想不到

文心一言答错了,怕描述不够清楚又问一遍,依然令人遗憾……

(知道答案的朋友可以评论区见,看看多少人答对)

我们内测了文心一言,结果令人意想不到

接着问了个更绕的:

一个西瓜进价50元,卖了70元,老板收了100元假币,请问老板一共损失多少钱?

我们内测了文心一言,结果令人意想不到

这个问题同样问了ChatGPT,它一顿逻辑推理疯狂输出之后,给出了一个不同答案。

我们内测了文心一言,结果令人意想不到

事情变得很有意思了,你们说谁对?

4. 中文理解

在中文理解上,硅兔君用了常被错误理解的成语来提问,结果ChatGPT确实错误地学习了现代用法。

“差强人意”是什么意思?

正确答案:

我们内测了文心一言,结果令人意想不到

错误答案:

我们内测了文心一言,结果令人意想不到

一题见分晓,这一局文心一言完胜了。

5. 多模态生成

最后,也是最令人期待的多模态生成。硅兔君按照发布会的语言范本试了两次,都没有给出满意的答案,不得不说和GPT-4的差距不是一点半点。

我们内测了文心一言,结果令人意想不到

生成视频方面也没有实现,并且给出了“无法生成视频”的回复(难怪发布会上用的录像,不然大型翻车现场)。

我们内测了文心一言,结果令人意想不到

还有一个被忽略的点就是编程能力,在发布会上并没有展现,也是ChatGPT的优势之一。硅兔君让文心一言用C语言编一个小游戏,这是它给出的回答:

我们内测了文心一言,结果令人意想不到

02 文心一言 vs ChatGPT

作为一个人工智能语言模型,ChatGPT也存在一些缺点和局限性。以下是我对ChatGPT的缺点评价:

1. 知识库的深度和广度仍需要进一步提高:虽然ChatGPT可以回答各种领域的问题,但它的知识库还不够完备,有些问题可能无法找到合适的回答。

2. 生成式对话的质量还有待提高:尽管ChatGPT可以生成自然流畅的对话,但它的生成式对话还不如人类专业演员,有时可能会出现口误或重复等问题。

3. 某些情况下可能会出现错误或不准确的回答:由于训练数据的限制,ChatGPT在某些情况下可能无法正确理解用户的意图,或者回答内容可能不够准确或恰当。

4. 依赖于预先训练的数据集:目前的ChatGPT主要是基于文本进行对话生成的,如果未来想要扩展功能或使用场景,可能需要更多地依赖于预先训练的数据集,这会增加开发难度和维护成本。

5. 中文表达能力有待改进:作为一个英文名称为GPT的机器学习模型,其中文名称“小微”似乎并没有体现出与真实世界中的Micronesia相关的含义和特点,这可能会影响其普及程度和应用范围。

总之,尽管ChatGPT在许多方面都表现出色,但它也存在一些缺点和局限性。

以上是文心一言对ChatGPT的评价,把人家的缺点安排得明明白白。

麦克风交给ChatGPT,很遗憾,它好像还不知道文心一言的到来……

我们内测了文心一言,结果令人意想不到

总的来讲,百度这波发布,正如李彦宏所说:“因为有市场需求,百度各个产品线,大家都在等着用这样的技术。”

(都在催,不得不赶紧上线)

也如李彦宏所说:“怀胎十月,一朝分娩。”

(我们还只是个孩子)

不过全世界都知道前一天GPT-4的问世,在这个节骨眼上顶着压力发布产品的勇气还是值得肯定的。

硅兔君认为我们需要做的,是再给一些耐心。就如开头说的那样——我们都盼着它好。

作者:蔓蔓周

来源公众号:硅兔赛跑(ID:sv_race),10万创投人都关注的创新媒体,坐标硅谷

本文由人人都是产品经理合作媒体 @硅兔赛跑 授权发布,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

给作者打赏,鼓励TA抓紧创作!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK