搞科研新姿势：让GPT-3给你打下手

十三 2023-03-09 08:41:53 来源：量子位

华人博士新研究

金磊发自凹非寺

量子位 | 公众号 QbitAI

搞科研的最新姿势，被一位华人小哥解锁了——

告诉AI你的研究目标，再把数据集“投喂”进去，完事。

a4a12195e2994f4ba5b5b6d580ce6bfe~tplv-tt-shrink:640:0.image?traceid=20230309083510A37A0864C96261BEFFCB&x-expires=2147483647&x-signature=u7umCnyyewDRAtR3xmbB8KnMN2c%3D

这就是来自伯克利的博士生Zhong Ruiqi等人的最新研究，把从海量数据集中繁琐的“取证”过程，统统交给GPT-3来解决：

b751edea5ef54a63965ae4fdf310f024~tplv-tt-shrink:640:0.image?traceid=20230309083510A37A0864C96261BEFFCB&x-expires=2147483647&x-signature=UgbmcIbF%2BQOWJpKcqSh%2F8VSdjPs%3D

他们还发现，这种用AI搞科研的方法不仅效率高，而且还能得出人类没有想到的“意外惊喜”。

3bb8579ad3e1499b9602c9eba212ea20~tplv-tt-shrink:640:0.image?traceid=20230309083510A37A0864C96261BEFFCB&x-expires=2147483647&x-signature=sMC%2BuWUhieVjp4F9hJYXj7yulak%3D

让GPT-3帮你搞科研

那么小哥他们为什么突发奇想地要用这种方式搞科研呢？

这是因为他们发现，对大型语料库做深入的挖掘确实能得到一些有用的结果，但这个过程要是让人类来搞，那简直就太费时费力了。

因此，他们便决定把这个繁琐的过程交给GPT-3来处理，并把这个任务命名为“D5”：

Goal Driven Discovery of Distributional Differences via Language Descriptions.

通过语言描述，实现目标驱动的分布式差异的发现。

“D5”任务的过程，简单来说就是两个动作：

输入研究目标
输入两个语料库

f13834dff66a46059d301d591881e75a~tplv-tt-shrink:640:0.image?traceid=20230309083510A37A0864C96261BEFFCB&x-expires=2147483647&x-signature=%2BloJNw1jjlIAvPe08A6EL6FUYRs%3D

例如在上面这个案例中，小哥先是给AI输进去了两个语料库：

语料库A：服用药物A后患者的反应报告
语料库B：服用药物B后患者的反应报告

然后再向AI确定自己的研究目标，即“我想了解一下药物A的副作用”。

在AI收到任务后，立刻开始执行分析工作，最后得出了它的结论：

语料库A中的样本，有更多的患者会提到“妄想症”（paranoia）。

不过试想一下，若让人类科研人员做这项工作，光是了解语料库A和B就需要花费大量的时间，更别提还得进一步做对比分析等工作了。

而D5任务之所以能够做得如此丝滑，是因为小哥他们在此背后还做了不少工作。

例如构建OpenD5元数据集，它包含符合D5任务的675个开放式问题，所涉及领域涵盖商业、社会科学、人文科学、健康和机器学习等。

93506429f89648428c21854456d1d00e~tplv-tt-shrink:640:0.image?traceid=20230309083510A37A0864C96261BEFFCB&x-expires=2147483647&x-signature=bESDFCLkpJHikqlGLyAguGoHh9I%3D

并且每个开放式问题都会对应一个语料库对儿（语料库A和语料库B），平均有17000个样本。

小哥还把每个语料库中的50%作为研究部分，另外50%则是拿来做验证。

基于此，小哥他们再构建了一个“D5系统”，它的工作原理和人类从数据库中获取发现类似，分为两个阶段，即创造性地提出一个假设，再在数据集上严格验证这个假设。

按照这种思路，研究人员接下来用GPT-3做了次实验。

他们先是向GPT3展示研究目标和每个语料库中的一些样本，然后让它提出一个假设列表。

最终实验发现，GPT-3可以使用目标描述来提出更相关、更新颖、更有意义的假设。

1d6d01eff0234b3194faba44060de32b~tplv-tt-shrink:640:0.image?traceid=20230309083510A37A0864C96261BEFFCB&x-expires=2147483647&x-signature=cYEjLhlHsQ63uVBukRrK6QGLeb0%3D

也正因为OpenD5数据集所涵盖的领域众多，因此小哥表示他们的D5系统具备应用范围广的特点。

也存在一些缺陷

但对于这套D5系统，小哥也直言不讳地道出了它的缺陷。

例如，若是语料库中含有较多的俚语、俗语或者带有情绪的词汇，那么AI所给出的“发现”就会存在偏差。

简而言之，就是AI对于特定情况的词汇或描述产生了错误的理解和分析。

1f15d15a176f4d3a8eb9ae504603d580~tplv-tt-shrink:640:0.image?traceid=20230309083510A37A0864C96261BEFFCB&x-expires=2147483647&x-signature=uzMJEb8b9%2F345%2Fn94zgKWGbvRS8%3D

除此之外，小哥也表示更灵活的语料库、更具扩展性的系统，也是他们在未来重点研究的方向。

不过似乎这项研究让小哥也是兴奋不已，毕竟离他“构建一个用AI稿科研”的梦想更近了一步。

20d0500858fa41b4815e1f62063c2585~tplv-tt-shrink:640:0.image?traceid=20230309083510A37A0864C96261BEFFCB&x-expires=2147483647&x-signature=xt66QWwqwIbTN1vRpBNqh%2ByJO8A%3D

参考链接：

[1] https://arxiv.org/abs/2302.14233
[2] https://twitter.com/ZhongRuiqi/status/1631109680859865089?s=20

搞科研新姿势：让GPT-3给你打下手

搞科研新姿势：让GPT-3给你打下手

让GPT-3帮你搞科研

也存在一些缺陷

Recommend

TinyPilot: Month 32

6万台Rokid Air售罄，Rokid"0库存"迎接新品发售 | 量子位

苹果宣布推出Apple Music Classic：24bit/192kHz无损，专注于古典音乐

Disambiguating Arm, Arm ARM, Armv9, ARM9, ARM64, Aarch64, A64, A78, ...

字节跳动发布 Cloud Firmware 2.0，实现产品化coreboot固件解决方案

A Pragmatist’s Guide To Lean User Research

Discovering the minutiae of backend systems

旷视印奇：AI未来会沿两个方向演进，AI in Digital和AI in Physical

Ergomake | Environments-as-a-Service

R2-D2, Rotations and Dilations in Two Dimensions

About Joyk