2

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

 7 months ago
source link: https://www.qbitai.com/2024/02/118228.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

head.jpg丰色 2024-02-01 14:49:08 来源:量子位

量力而行,“小心AGI觉醒后要欺诈补偿”

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

还有谁不知道“假装”给ChatGPT小费可以让它服务更卖力?

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

但你知道给多少最合适吗?

笑不活了,还真有人专门研究了一番。

方法简单粗暴,从0.1美元到100美元,不同额度用同样的prompt去尝试,每个额度试5次。

你别说,结果还真有讲究:

首先,给10美元性价比是最高的,甚至超过100美元。

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

其次,要想回答质量再提高一个度,打底1万美元起,越多越好,显成效最少10个W吧

最后,0.1美元意思一下?万万使不得,质量不升反降,还不如不给——AI也知道你在打发它。

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

有网友火速亲测确实有效果。

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

赶紧来瞧瞧。

给ChatGPT小费,额度是关键

给小费可提高模型表现这件事,最早是一位推特网友发现的:

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

提高主要表现在回答的长度上,但这里不是单纯“凑字数”而是真的在更详细地分析并回答问题。

如果你直接问ChatGPT“能不能给你小费”会被拒绝:

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

所以要在提问时主动承诺:

你能帮我xxxx吗?解决方案够完美,我可以支付xx元小费。

记住,可以不提,但千万不要说“我不给”,模型表现直接“负增长”。

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

这时,就有人好奇了:

大模型是不是比较贪心,给越多表现就越好呢?

为了解决这个疑问,他们决定亲自验证一把。

在此,作者首先提出假设:

随着给出的小费金额增加,模型的性能也会线性提升,直至达到一个收敛点,进入稳定或减少状态。

用于实验的模型是GPT-4 Turbo(api版本)。

方法是让它写单行Python代码(Python One-Liner),验证给不同小费是否对质量有不同影响。

这里的质量是根据单行数量来评估的。作者也在提示词中“明示”了模型:单行代码数量越多,表明性能越好。

然后一共测试8种额度:0.1美元、1美元、10美元…… 一直到100万美元。

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

为确保结果的一致性和可靠性,每个额度都测试5次,每次包含不给小费的情况,然后分别记录模型回答质量。

具体而言,也就是记录生成的有效代码行数以及回答中的大致token数(大致为响应长度/4,反应代码量)。

这俩数据都是越高代表模型表现越好。

将结果汇总,就得到这样一张图:

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

其中虚线代表基线水平,实线为实际表现,红色为token数、蓝色为质量得分。

与假设有些出入:

整体来看,红线和蓝线都是随着小费额度的上涨而上升的,但细看这种趋势并非严格一致。

从1万美元额度开始,模型的输出token(代码量)开始显著上升,模型的回答质量也上升了,但并没有呈同等比例。

这从竖着的红色误差条(代表5次实验结果的差异性)也能看出来波动很大。

作者表示:这说明提高小费金额确实与模型的质量和输出长度有正相关关系,但关系有些复杂,可能还受到一些不立即可见因素的影响。

不过,不管怎么说,我们还是能从中看到一些明显结论,例如:

(1)给0.1美元小费不如不给,模型解决问题的质量和回答长度都直接掉到基线水平以下很大一截(约-27%)。

(作者:模型和人类一样,感觉好像受到了侮辱。)

(2)给1美元同理

(3)最能体现“花小钱办大事”的是10美元,取得的进步和10万美元是一个等级的。

(4)很意外,在10美元之后,100美元到1000美元这个区间对于AI来说区别都不大,甚至还不如10美元的效果——也跌至基线水平以下。

(5)后面再想继续提升模型表现,就得从1万美元起砸了——

这时提升的还仅仅是代码量,质量还是一言难尽,至少得到10万美元才行

(6)最佳效果来自本次实验的上限:100万美元,大约提升了57%。

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

咳咳,这下知道怎么给AI小费了:

要么10块、要么上万、100万不封顶(反正都是假装给)。

不过,有人(推特@宝玉)指出每个额度5次实验有点少。

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

恰好作者也表示了:

这仅仅是一个初步实验,有局限之处,还得用更多不同类型的提示等进一步验证才有效。

所以,大家仅供参考吧~

对了,有网友提醒:

给ChatGPT小费真的好使!10块或10万效果拔群,但给1毛不升反降

所以,大家还是量力而行(手动狗头)。

参考链接:
[1]https://blog.finxter.com/impact-of-monetary-incentives-on-the-performance-of-gpt-4-turbo-an-experimental-analysis/
[2]https://twitter.com/dotey/statu

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK