3月22日，NVIDIA的CEO黄仁勋与OpenAI的创始人Ilya Sutskever进行了围炉对谈，通过视频可以更好地了解OpenAI是如何走到今天，又是如何理解ChatGPT和GPT-4这些大模型的。不过毕竟是非正式访谈，思路和观点略有发散，本文提取访谈中一些有意思的观点供参考。

BTW，网上的中文完整字幕翻译对某些观点的翻译解读有误，建议看原视频。

# AI Opener: OpenAI’s Sutskever in Conversation With Jensen Huang

OpenAI在创始初期的两个`big initial ideas`

第一个想法是通过压缩进行无监督学习。今天大家觉得预训练这样的无监督学习已经司空见惯，但在2016年，(NLP的)无监督学习还是个机器学习领域悬而未解的问题，没人知道该怎么做。Ilya当时就坚信，好的数据压缩方式会带来真正的无监督学习。

现在大家知道了GPT的原理: 从纯数学角度来看，训练自回归模型本质上是在压缩数据。但更关键的是，直观上，好的数据压缩可以揭示数据内部的隐藏信息。OpenAI是如何发现这个现象的呢？

OpenAI当年做过一个情绪检测任务，他们惊奇地发现，如果神经网络可以很好地预测下一个字符，那么就会有一个对应的神经元在LSTM中对应它的情绪。这个结论证实了无监督学习的效果，也验证了预测下一字符任务的有效性，同时也说明了数据压缩具有发现数据内在联系的功能。而上述这些发现在GPT模型中都得到了充分的体现。

今天来看，这件事的难点在于，当年是怎么发现并确信预测下一个字符这个方向是正确的？

第二个想法是强化学习。OpenAI在初期就用强化学习做了一个实时策略的游戏项目，后期这个项目演变成为了人工反馈强化学习(RLHF)，与第一个想法结合之后，产生了ChatGPT。OpenAI做了不少看起来是在走弯路，而最终引导到正确道路上的事情。

ChatGPT是如何工作的？

表面上来看，ChatGPT是在学习预测下一个词，实际上是在训练它学习成为世界模型 (world model)。虽然看上去只是学习了文本统计相关性，事实上是如果把这个任务学得很好，它就可以将世界知识很好地进行压缩(此观点强调了上面第一个压缩训练数据的想法)。

神经网络学习的是生成文本的过程中将它们进行摘要的能力，而摘要后的内容是世界的一个投影(a projection of the world)。因此，神经网络正在学习从更多的角度看待这个世界，看待人类和社会。它学到的是一个压缩、抽象并可用的表征。这件事是通过下一字符预测完成的，这个任务的准确度和还原度越高，模型对世界理解的分辨率和还原度也就越高。

上述过程是预训练(第一阶段)做的事情，但模型并不能按我们的意愿行事。对于一段prompt来说，此时的模型只能用一段随机的文本将其补全。它不能作为一个有用、可靠并遵循规则的助手，所以我们需要通过对模型额外的训练，也就是微调达到这个目的。此额外训练也包括了从人类反馈中进行强化学习 (此观点强调了上面第二个强化学习的想法)。在此过程中我们并不是教模型新知识，而是与它在“交流” (communicate)，告诉它我们希望它成为什么样子。而这个第二阶段做得越好，模型就会越有用、越可靠。

GPT-4比ChatGPT强在什么地方？

除去多维度的改进，GPT-4预测下一个词更准确，而这表明了它有更深的理解。Ilya举了读侦探小说的例子进行类比，读了整部小说，最后预测坏人的名字。如果预测得很准，就说明对小说产生了更深的理解。

深度学习到底会不会产生推理？

推理不是个很定义的概念，但还是可以尝试去定义它。Ilya的定义是通过进一步的思考获取更好的结果。这里涉及到神经网络能达到的上限在哪的问题，Ilya认为目前神经网络的能力还没有被充分挖掘，但它的上限多高并不清楚，还有待研究。

(笔者认为Ilya的判断是比较客观的，模型目前达到的推理能力依然有限，更谈不上真正的可替代人类的智能。而国内许多自媒体为了吸睛，过分夸大了当前模型的能力，是个非常不好的现象。)

当前模型的可用性如何？

模型还是会出现幻想 (hallucination)，不太可靠。而可靠性才是影响模型可用的最大障碍。它们可能会犯一些人类不会犯的低级错误，而这些问题导致模型的可用性大大降低 (substantially unuseful)。可靠性的问题还需要更多的研究来解决。

此外，模型要设置精确的护栏，学会说不。对于它不知道或不清楚的知识，通过反问明确问题，或者直接说不，这样也可以让它的回答更可信。

为什么需要多模态？

第一，世界是视觉化的，人也是个视觉动物，人类大脑皮层的三分之一都用于视觉。所以，GPT-4加上视觉，可以更好地“看”到世界，从而让神经网络更有用。

第二，除了从文本中学习，模型也可以从图像中学习世界。Ilya举例说人的一生也就听到十亿个单词，并不是很多。所以人的学习过程需要更多的输入，人会从视觉中学到许多东西。再举个例子，红色比蓝色更接近橙色，如果我们加入视觉，模型可以更容易地学到这个知识。

加入听觉也可以让模型更好地学习，但没有视觉起到的作用这么大。

未来一两年内语言模型的发展方向？

Ilya说预测未来是很困难的。不过他认为不远的将来，模型可靠性和可信度的方向一定会有很大的进步，而模型的可靠性是由人类的信任度决定的。比如文章摘要，模型可以将人类认为的所有要点摘要出来而没有遗漏，变得更可信。

成王败寇，ChatGPT很成功，总是可以找到许多支持它成功的理由。多少有点类似年长的大佬们说自己年轻时多么努力的意味。不过上面的访谈一定程度上说明了OpenAI做GPT的思路，值得一看。:-)

围炉对谈：OpenAI创始人对GPT-4和ChatGPT的理解

OpenAI在创始初期的两个`big initial ideas`

ChatGPT是如何工作的？

GPT-4比ChatGPT强在什么地方？

深度学习到底会不会产生推理？

当前模型的可用性如何？

为什么需要多模态？

未来一两年内语言模型的发展方向？

Recommend

贵州4月下旬自驾游记

ERROR: Could not find a version that satisfies the requirement Solution

升级gcc解决编译llama-cpp-python错误

GM Envolve 打造一站式充电服务，以帮助车队实现电动化

Drone maker Zipline adds vitamins, pizzas and prescriptions to cargo

Amazon 'not concerned' about wave of unionizing, touts competitive pay

Electronics Lab Bench Setup Guide – Badar Jahangir Kayani

Why Airbus and others are betting on hydrogen-powered planes

Microsoft skips salary increases for full-time employees this year

Waydoo苇渡智能科技的电动冲浪板和推进器｜BEYOND Expo 2023

About Joyk

围炉对谈：OpenAI创始人对GPT-4和ChatGPT的理解

OpenAI在创始初期的两个big initial ideas

ChatGPT是如何工作的？

GPT-4比ChatGPT强在什么地方？

深度学习到底会不会产生推理？

当前模型的可用性如何？

为什么需要多模态？

未来一两年内语言模型的发展方向？

Recommend

About Joyk

OpenAI在创始初期的两个`big initial ideas`