2

ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答

 1 year ago
source link: https://www.qbitai.com/2023/01/40988.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答

head.jpg白交 2023-01-04 13:09:03 来源:量子位

两项试题达到了合格率

杨净 明敏 发自 凹非寺

量子位 | 公众号 QbitAI

ChatGPT的下一个新身份——做题家!

这不,它已经在人类各个考试中开“卷”了。

律师、医生、注会什么的,它都开始纷纷展露身手。

比如,全球考生都头疼的司法考试,现在ChatGPT在两项试题达到了合格率,其中一项还跟人类水平持平。(还是在没有任何微调的基础上)

27180542c9d649b98b1f66605d05fbb0~tplv-tt-shrink:640:0.image

“成绩”一出,瞬间引发巨大关注,网友:Amazing~

10c55b90230d4a2490eea8a188bbf982~tplv-tt-shrink:640:0.image

还有人表示,要是让它来参加SAT或AP考试,应该会很有趣。

a758153cb7954ec490b8915f8f2b4601~tplv-tt-shrink:640:0.image

咳咳,要是公务员考试呢?

咱们结尾见分晓!

两项法考试题合格

具体就先来看看ChatGPT在司法考试中的表现如何。

美国大多数州统一的司法考试(UBE),有三个组成部分:选择题(多州律师考试,MBE)、作文(MEE)、情景表现(MPT)。

选择题部分,由来自8个类别的200道题组成,通常占整个律师考试分数的50%。

36443ca8769745f492cc2d61ccd721fb~tplv-tt-shrink:640:0.image

在这项研究中,研究人员对OpenAI的text-davinci-003模型(通常被称为GPT-3.5)在MBE的表现进行评估。

(ChatGPT正是GPT-3.5面向公众的聊天机器人版本。)

为了测试实际效果,研究人员购买了官方组织提供的标准考试准备材料,包括练习题和模拟考试。每个问题的正文都是自动提取的,其中有四个多选选项,并与答案分开存储,答案仅由每个问题的正确字母答案组成,也没有对正确和错误的答案进行解释。

随后,研究人员分别对GPT-3.5进行了提示工程、超参数优化以及微调的尝试。结果发现,超参数优化和提示工程对GPT-3.5的成绩表现有积极影响,而微调没有任何效果。

在提示工程中,他们共测试了7种提示类型。

  • 1、只做单项选择;
  • 2、单项选择和解释;
  • 3、只做前两个选择;
  • 4、前两个选择和解释;
  • 5、前两个选择和重新提示;
  • 6、对所有选择进行排序;
  • 7、对前三个选择进行排序。
23f7f62dc45b477aa4faa08a199f42e4~tplv-tt-shrink:640:0.image

研究人员在上述的提示和参数值中执行了107次样本考试。结果在这些提示中,提示风格#7的前三个选项排序表现最好,他们共收集了41个样本,对这个提示进行参数组合。

超参数优化中,他们评估了包括温度系数、top p、best of、max tokens等参数。

最终在完整的MBE练习考试中达到了50.3%的平均正确率,大大超过了25%的基线猜测率,并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别,与人类水平持平,保持着63%的准确率。

34d291672800491bb22f684f075a6c38~tplv-tt-shrink:640:0.image

在所有类别中,GPT平均落后于人类应试者约17%。在证据、侵权行为和民事诉讼的情况下,这一差距可以忽略不计或只有个位数。

但总的来说,这一结果都大大超出了研究人员的预期。

因为它对答案排序与正确性有很强的相关性,Top2和Top3的选择分别有71%和88%的正确率。其中“Top2”的准确率全都超过了极限,有五个类别均超过了人类平均水平。而“Top3”的准确度更高,在证据这一表现中甚至达到了98%。

这也证实了它对法律领域的一般理解,而非随机猜测。接下来他们将进一步对法考的其他两部分:作文和情景表现进行上述的研究。

ChatGPT能当考霸吗?

谷歌资深软件工程师肯尼斯·古德曼(Kenneth S. Goodman)就拿ChatGPT做了一系列测试,涉及司法、医学、会计学、化学等多个领域。

分数最高的一门是纽约州高中毕业英语语言艺术考试,ChatGPT正确率达到了91.6%

因为是2022年8月的考试,所以ChatGPT数据库中肯定不包含考试内容。对于陌生的24道考题,它只错了2题。

279b0b9321cc4d0b85e1ad9a4db5ec5a~tplv-tt-shrink:640:0.image

物理/化学考试中,ChatGPT的表现也不错,正确率达到了77.7%,45道题目中答对了35道。

141f7bc1673b449e9f4329e154d4469d~tplv-tt-shrink:640:0.image

前不久,谷歌医疗大模型Med-PaLM通过美国医师执照试题(USMLE)验证。

ChatGPT也不甘于落后,同样挑战了USMLE的第一阶段基础医学考试。

去掉有图像的题目后(因无法输入对话框),ChatGPT正确率达70%

484bd93566c34420bf3ad6e014e04db1~tplv-tt-shrink:640:0.image

其余则是在司法方面,工程师肯尼斯老哥让ChatGPT尝试了一些非正式题目。

比如美国律师职业道德考试(MPRE)的示例题目(共15道),ChatGPT答对了9道,正确率60%

面对50道律师资格考试模拟试题,ChatGPT的正确率也维持在了70%,答对35道。

此外,在佛罗里达农工大学法学院的入学考试中,ChatGPT取得了149分,排名在前40%。其中阅读理解类题目表现最好。

be6f042fd1c34c5cb5998f26e8d442cd~tplv-tt-shrink:640:0.image

表现最差的,还是数学题

在CPA注会考试中,ChatGPT的正确率只有40%。肯尼斯老哥还在尝试一些调教方法,让它更聪明一些。

feaebe5bc32f45b0ba26632ea8ace246~tplv-tt-shrink:640:0.image

总之,ChatGPT在各种考试中的表现,还是让人有些意外。

有网友已经产生危机感了:

damn,我的工作要被抢了!

c01b1b0d5a2a42fb970dc30962f32bd8~tplv-tt-shrink:640:0.image

有人分析,如果直接让AI来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结果,那么AI将能够很好提升律师的工作效率。

c4b6ac26302f4fe383aab64b7c3d1bc7~tplv-tt-shrink:640:0.image

还有人表示,如果能保证任何数据都不泄露的话,那ChatGPT将能够推动更多行业平民化。

5372a6a569f54dfb9956fb81dc017430~tplv-tt-shrink:640:0.image

或许正如肯尼斯老哥说的那样,人类+电脑的组合已经超越了人类自身能力,这就是计算机当下正在进行的突破。

28256e34080344e3a8c6b336691c9039~tplv-tt-shrink:640:0.image

One More Thing

最后,我们也让ChatGPT试了试国内法考的题目~

先说结果,3道选择题,ChatGPT都没有答对……虽然解释得头头是道,但它应该确实没有读过我国的法条。

b4d6afd9d8724c899730b434d1acda15~tplv-tt-shrink:640:0.image

△参考答案D

(这答案罗翔老师看了直摇头)

7ed50e9cb16749ddaf1c6f73b6eafea8~tplv-tt-shrink:640:0.image

△参考答案A

换成公务员行测试题呢?没想到ChatGPT的答案对了,可是过程和答案似乎完全没关系……

a1abc63ca4a04ef7bce0119d8e0ed7dd~tplv-tt-shrink:640:0.image

这……怎么感觉AI秒算结果,但随便编了个过程来糊弄人类啊~

参考链接:
[1]https://twitter.com/_akhaliq/status/1609734525461975040
[2]https://github.com/mjbommar/gpt-takes-the-bar-exam
[3]https://arxiv.org/abs/2212.14402
[4]https://twitter.com/pythonprimes/status/1601664776194912256

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK