4

围炉对谈:OpenAI创始人对GPT-4和ChatGPT的理解

 1 year ago
source link: https://finisky.github.io/fireside-talk-openai-ceo-summary/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

3月22日,NVIDIA的CEO黄仁勋与OpenAI的创始人Ilya Sutskever进行了围炉对谈,通过视频可以更好地了解OpenAI是如何走到今天,又是如何理解ChatGPT和GPT-4这些大模型的。不过毕竟是非正式访谈,思路和观点略有发散,本文提取访谈中一些有意思的观点供参考。

BTW,网上的中文完整字幕翻译对某些观点的翻译解读有误,建议看原视频。

# AI Opener: OpenAI’s Sutskever in Conversation With Jensen Huang

OpenAI在创始初期的两个big initial ideas

第一个想法是通过压缩进行无监督学习。今天大家觉得预训练这样的无监督学习已经司空见惯,但在2016年,(NLP的)无监督学习还是个机器学习领域悬而未解的问题,没人知道该怎么做。Ilya当时就坚信,好的数据压缩方式会带来真正的无监督学习。

现在大家知道了GPT的原理: 从纯数学角度来看,训练自回归模型本质上是在压缩数据。但更关键的是,直观上,好的数据压缩可以揭示数据内部的隐藏信息。OpenAI是如何发现这个现象的呢?

OpenAI当年做过一个情绪检测任务,他们惊奇地发现,如果神经网络可以很好地预测下一个字符,那么就会有一个对应的神经元在LSTM中对应它的情绪。这个结论证实了无监督学习的效果,也验证了预测下一字符任务的有效性,同时也说明了数据压缩具有发现数据内在联系的功能。而上述这些发现在GPT模型中都得到了充分的体现。

今天来看,这件事的难点在于,当年是怎么发现并确信预测下一个字符这个方向是正确的?

第二个想法是强化学习。OpenAI在初期就用强化学习做了一个实时策略的游戏项目,后期这个项目演变成为了人工反馈强化学习(RLHF),与第一个想法结合之后,产生了ChatGPT。OpenAI做了不少看起来是在走弯路,而最终引导到正确道路上的事情。

ChatGPT是如何工作的?

表面上来看,ChatGPT是在学习预测下一个词,实际上是在训练它学习成为世界模型 (world model)。虽然看上去只是学习了文本统计相关性,事实上是如果把这个任务学得很好,它就可以将世界知识很好地进行压缩(此观点强调了上面第一个压缩训练数据的想法)。

神经网络学习的是生成文本的过程中将它们进行摘要的能力,而摘要后的内容是世界的一个投影(a projection of the world)。因此,神经网络正在学习从更多的角度看待这个世界,看待人类和社会。它学到的是一个压缩、抽象并可用的表征。这件事是通过下一字符预测完成的,这个任务的准确度和还原度越高,模型对世界理解的分辨率和还原度也就越高。

上述过程是预训练(第一阶段)做的事情,但模型并不能按我们的意愿行事。对于一段prompt来说,此时的模型只能用一段随机的文本将其补全。它不能作为一个有用、可靠并遵循规则的助手,所以我们需要通过对模型额外的训练,也就是微调达到这个目的。此额外训练也包括了从人类反馈中进行强化学习 (此观点强调了上面第二个强化学习的想法)。在此过程中我们并不是教模型新知识,而是与它在“交流” (communicate),告诉它我们希望它成为什么样子。而这个第二阶段做得越好,模型就会越有用、越可靠。

GPT-4比ChatGPT强在什么地方?

除去多维度的改进,GPT-4预测下一个词更准确,而这表明了它有更深的理解。Ilya举了读侦探小说的例子进行类比,读了整部小说,最后预测坏人的名字。如果预测得很准,就说明对小说产生了更深的理解。

深度学习到底会不会产生推理?

推理不是个很定义的概念,但还是可以尝试去定义它。Ilya的定义是通过进一步的思考获取更好的结果。这里涉及到神经网络能达到的上限在哪的问题,Ilya认为目前神经网络的能力还没有被充分挖掘,但它的上限多高并不清楚,还有待研究。

(笔者认为Ilya的判断是比较客观的,模型目前达到的推理能力依然有限,更谈不上真正的可替代人类的智能。而国内许多自媒体为了吸睛,过分夸大了当前模型的能力,是个非常不好的现象。)

当前模型的可用性如何?

模型还是会出现幻想 (hallucination),不太可靠。而可靠性才是影响模型可用的最大障碍。它们可能会犯一些人类不会犯的低级错误,而这些问题导致模型的可用性大大降低 (substantially unuseful)。可靠性的问题还需要更多的研究来解决。

此外,模型要设置精确的护栏,学会说不。对于它不知道或不清楚的知识,通过反问明确问题,或者直接说不,这样也可以让它的回答更可信。

为什么需要多模态?

第一,世界是视觉化的,人也是个视觉动物,人类大脑皮层的三分之一都用于视觉。所以,GPT-4加上视觉,可以更好地“看”到世界,从而让神经网络更有用。

第二,除了从文本中学习,模型也可以从图像中学习世界。Ilya举例说人的一生也就听到十亿个单词,并不是很多。所以人的学习过程需要更多的输入,人会从视觉中学到许多东西。再举个例子,红色比蓝色更接近橙色,如果我们加入视觉,模型可以更容易地学到这个知识。

加入听觉也可以让模型更好地学习,但没有视觉起到的作用这么大。

未来一两年内语言模型的发展方向?

Ilya说预测未来是很困难的。不过他认为不远的将来,模型可靠性和可信度的方向一定会有很大的进步,而模型的可靠性是由人类的信任度决定的。比如文章摘要,模型可以将人类认为的所有要点摘要出来而没有遗漏,变得更可信。


成王败寇,ChatGPT很成功,总是可以找到许多支持它成功的理由。多少有点类似年长的大佬们说自己年轻时多么努力的意味。不过上面的访谈一定程度上说明了OpenAI做GPT的思路,值得一看。:-)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK