12min read

RWKV：一个大模型小团队，要做 AI 时代的安卓

2023/07/26

独自一人开发大模型，转身创业并拒掉巨头的橄榄枝。

「Interested in working at OpenAI ?」

香港大学物理系毕业的彭博，在今年2月3日收到了一封来自 OpenAI 的邀约邮件。吸引这家 AI 巨头的，是他作为独立开发者发布的一个开源模型：RWKV。信中并没有包含具体薪资。不过，此前有消息称 OpenAI 为软件工程师提供的年薪中位数为92.5万美元。

当时国内还少有人关注到这个创新的模型设计。

彭博回复了邮件：「OpenAI is great, but I like building Open AI :) Let me know if OpenAI plans to build a community project one day.”（OpenAI很好，但我喜欢建设 Open 的 AI :) 如果OpenAI哪天计划做一个社区驱动的项目，欢迎告诉我）。

如今，他是元智能OS的创始人。这是一个基于RWKV模型的创业公司。他更希望建设真正Open的AI，这需要更多商业和资金的支持。这就像Linux是免费的，基于Linux开源生态，会形成 Redhat 这样的商业公司。

为了降低模型的推理成本，RWKV 创新性地将大模型最常用的 Transformer 架构改写成了RNN，这展现出的实用价值受到了业内的关注。让团队引以为傲，反复强调的是：在开放研究组织 LMSYS 每周更新排行榜中，真实用户测评的Elo排名中，RWKV系的对话模型 Raven-14B 的排在Alpaca-13B、OpenAssistant-Pythia-12B、ChatGLM-6B等知名项目前。

而RWKV和Raven，从设计，到优化，到大规模训练，全部由彭博一人完成。

在执行推理任务时，RWKV的性能优越。如果Transfomer架构的算力成本是T（序列长度）的平方，RWKV推理的算力成本只有T分之一，并且显存的占用是恒定的。「我们是市面上真正能够在手机的芯片上长期跑的模型。因为其他的模型跑着跑着显存就会爆掉。」元智能的另一位联创罗璇介绍。

独特的性能，让RWKV在开源社区中获得了一定的关注，得到了来自Stability AI的算力支持。RWKV也积累起了自己的开发者社群，并成立了RWKV基金会。5月底，来自全世界27个研究机构、开源社区、高校的RWKV开发者们合著的论文才在arxiv上发表，外界得以更详细了解模型设计的细节。

大模型的热潮让黑客松复兴。在今年4月份深圳一场黑客松上，经历三组初赛后，「第一个国产开源语言模型RWKV」在进入决赛的17个队伍中脱颖而出，获得了第一名。罗璇便是这场黑客松的发起人。他表示，这场开启于3月的比赛「可能是中国最早的 AIGC 黑客松」。他是AI-Transformer 社群的创始人，曾在腾讯担任高级产品经理、猎豹移动担任高级产品总监；2016年 all in AI，先后在阿里巴巴机器人部门和AI Lab担任产品总监，2018年创业做了AMR机器人公司，担任Syrius矩星的联合创始人。

夺冠之后，RWKV 团队想尝试商业化，需要一个产品和市场经验丰富的人，于是邀请罗璇加入。此后，基于RWKV的商业团队组成了4人创始团队：RWKV原作彭博、CTO 刘潇、COO孔晴、罗璇。这便是「元智能OS」的起源。

罗璇介绍，目前元智能OS团队有7人，主要精力依旧放在训练更好的基础模型上。目前公司正在进行第一轮融资，也已经接到一些微调行业模型的商单。而元智能OS最终的目标是成为大模型时代的Android。这意味着开发者基于RWKV开发应用，形成生态，与模型适配的芯片会进入终端。

诞生于个人开发者的创新模型

RWKV这一模型读作「Ra Ku」，最初的作者只有彭博一个人。RWKV模型的诞生，一部分源自彭博自己用AI生成小说的兴趣。

小说是一种需要连贯逻辑、内在世界观的长文本。三年前，GPT系列模型已经引起了学界的关注，但是长文本生成依旧是不小的挑战。

在2017年的谷歌论文中，为了实现Attention机制，研究者提出了如今被LLM广泛采用的Transformer架构。这一架构的特点是具有可扩展性。并行的Transformer组件提升了模型训练数据的效率，从而让LLM的参数规模持续增加，最终出现了「智能涌现」的特点。

但是这一架构也有缺点，在执行推理任务，也就是生成内容的时候，计算复杂度会随着序列长度（T）成2次方O(T*2）增加，这意味着推理时计算成本的也会成2次方增加。这种计算复杂度的增加是由Attention机制带来的，因此，一部分研究者在思考如何能够简化Attention机制。

2021年，苹果发布了一篇论文《An Attention Free Transformer》，提出了种不需要 Attention 机制的 Transformer 模型。这给了彭博很大的启发，他将这篇论文中的公式进行改写，成功将Attention公式改写成了RNN（循环神经网络）形式。循环神经网络是之前 NLP 里最常用的深度学习模型。

公式的改写，将推理的计算复杂度降为了线性增长。于是，RWKV被形容为成兼具Transformer与RNN优点的模型架构：可并行高效训练、推理性能优越。

RWKV模型训练完成后，彭博将其在国外的GitHub、以及国内的魔搭社区上线。他开发了更适合对话的ChatRWKV，并建立了Discord社区、QQ群，欢迎开发者们一起做「大规模语言模型的 Stable Diffusion」、「开源ChatGPT」。这样一个出自独立开发者的模型，在5月初， RWKV一度在开放研究组织LMSYS的模型对抗排名中取得了第六名，无疑令人惊喜。

对于小型创业团队、个人开发者而言，RWKV是没有算力门槛，是可以快速尝试的模型。在最近一次不到二十人的小范围聚会中，我遇到四五个基于大模型做应用的创业者。其中就有两个使用了RWKV。

这样创业小团队的画像很常见：基于已有的开源模型，结合私有数据做Finetune，帮助一些需要提升效率的企业，做模型定制或内部的 AI Agent 开发。

他们常常在开源社区选用最合适的模型，也熟悉各个开源模型的特点。一位创业者则在朋友圈展示出RWKV的安卓端版的页面，这是一个可以在手机端进行推理的模型版本。

其中一位创业者表示，RWKV模型的优势是处理长文本的信息，并给出回应，因此在格外需要这一能力的用例上会优先考虑，不过模型的缺点也很明显，发散性太强，交互过程中会容易偏离话题。「它实际上的竞争对手是GLM」他说。

ChatGLM是清华智谱团队开发的模型。其中的6B版本在国内开源模型中表现出色，颇有口碑。几天前团队刚刚宣布了此前开源的ChatGLM-6B 和ChatGLM2-6B允许商用。

RWKV保持开源，元智能OS想成为大模型时代的安卓

在开源模型层出不穷的当下，如何评测模型无疑是关键任务。各家也往往搬出其自研模型在MMLU、AGIEval、C-Eval等评测基准上的表现，以自证模型能力。但不止一位行业人士指出，模型可以根据评测基准做特定的数据优化，由此最终得到比较好的打分结果。这一现象难免令外界无所适从。

要真正理解RWKV在排行榜上取得的排名的含义，就需要理解排名产生的规则。开放研究组织 LMSYS 则创新地尝试一种综合的测评策略，每周更新排行榜。最新的结果显示，RWKV系列 14B的对话模型 Raven 排在第15位，综合排位在ChatGLM-6B（清华-智谱）之前，后者是在国内颇具口碑的开源模型。在5月8日的排行中，RWKV一度排在第六。

LMSYS的测评策略中一共使用三种方式为模型打分，RWKV似乎在第一种 Chatbot Arena（对话模型竞技场）的表现上更加优越；而在MT-bench、MMLU这样的基于任务集的测试上得分偏低。

Chatbot Arena（对话机器人竞技场）是随机匿名的人类打分机制。在网页上，访客同时跟两个匿名模型进行交互，并投票给更认为体验更佳的一方。这样收集众多模型间1V1的比拼结果之后，LMSYS最终统计模型的排名。在每周的排名公布时，也会公布任意两个模型在竞技场上「狭路相逢」时的表现。最近一周，当RWKV-4-Raven-14B与ChatGLM-6B被人类比较时，59%的概率下，人类会觉得 Raven 表现更优秀，这或许说明了在对话的场景下，Raven略胜一筹。

而在MT-bench、MMLU这样的基于任务集的测试上得分偏低，这表明RWKV在能力泛化、知识迁移、多轮有挑战的任务上能力较弱。

罗璇曾形容 RWKV 是「最佳开源可商用」LLM。不过，在百川智能 Baichuan-13B、智谱 ChatGLM2-6B 先后宣布开源可商用之后，国内开源可商用的模型格局必然发生新的变化。5月，RWKV在Hugging face模型平台上线，但目前已经不在 Open LLM Leaderboard 榜单上，ChatGLM2-6B 和 Baichuan-7B 榜单中排位相近。

在5月接受36Kr采访时，彭博表示「RWKV 中文 7B 模型和 ChatGLM 6B 中文模型也是互有胜负，不过，RWKV 还没开始真正炼中文模型，使用的是英文词表，还没有加入大规模中文语料。」

彭博目前的主要精力都集中在训练模型上，RWKV-4-world 系列模型也在不断上线中，其中就包括了针对中文的特化模型，重点提升了中文能力，降低了其它语言的能力。目前Demo也已经开放在魔搭社区供人尝试。在AI作曲上，彭博也发布了最新的开源成果，基于RWKV生成MIDI形式音乐的模型。（注：MIDI一种数字音频格式，用于控制电子音乐设备之间的通信）

RWKV模型本身会一直保持开源和非盈利，目标是成为大模型时代的Linux，而元智能OS则希望能够成为大模型时代安卓。

罗璇表示，安卓是 Linux 在手机垂直领域的版本。对应而言，元智能OS就会成为大模型时代某一领域最通用的模型。「大模型时代的安卓」包含了两层含义，「会有一个大的生态，在这个基础上，提供多样的能力给第三方应用；另外一方面，硬件会是RWKV的重要生态。」他介绍，目前终端和服务器上的GPU、CPU都可以用来做模型推理，而在模型训练方面，Nvidia、AMD、Intel等芯片都已能够很好支持，国产芯片中不少也移植了RWKV的算子。

「做ChatGPT现在不能做的」: 未来的模型会在端侧运行

元智能OS已经接到了帮助一些微调行业垂直领域的商单，客户主要来自金融、律所、智能硬件等行业，以license的形式收年费。RWKV模型吸引它们的主要是两点：全自研，算力成本低。

元智能OS会结合特定领域的公开数据，在基础模型上微调一个更具备行业知识的垂直模型，再交由客户结合自己的私有业务数据，进行本地化部署。部署环节往往由第三方技术提供方实现，这是由于公司希望私有数据不外泄。本地化部署所面临的是业务上的门槛，而非技术上的门槛，「数据不能出来，不能进模型。」

这也是为什么以API的商业模式的前景开始受到怀疑。尽管OpenAI已经在3月分更新了服务条款，明确表示不再使用任何API的数据进行训练，依旧难以打消企业们对于数据外泄的担忧。

元智能OS的观点是明确的：API不是一个好的商业模式。

延迟问题难以解决。在智能汽车、智能音箱，以及未来的XR眼镜、头显等场景，通过API调用云端算力资源的延迟性较高。「现在Open AI的API调用体验非常差，实际上是不可用的」
成本问题，调用API按照消耗Token的数量来计费，如果在终端设备上使用功能，还要为云端的Token付费，也是不合理的。罗璇表示，如果接入OpenAI的API，计算下来，一个智能音箱需要10美金的订阅费抵消成本。
数据安全问题。除了企业不愿意外泄数据，在个人助理领域，个人用户也不希望自己的私人数据被传入云端。

在端侧运行大模型，也已经是行业内的共识，高通前不久展示针对Stable Diffusion 而做的优化，实现了在安卓手机上运行模型。

由于RWKV模型的性能优势，元智能OS将「终端部署大模型」视为自己的最大战场。彭博表示「AI 大模型的决战战场是在硬件上面，也就是芯片。无论是端侧和云测都需要专用芯片。」陆奇在深圳的公开演讲中就曾表示，可能需要三到五年的时间，大模型会在手机端上运行。

目前RWKV已经提供了在Windows 和 Mac、Linux电脑上可以安装的版本 RWKV Runner。除了已经放出的安卓版本，IOS版本在开发中。罗璇告诉极客公园：元智能OS正在进行第一轮融资。团队未来半年的核心还是模型，提升模型能力是一方面，另外也正在和一些芯片公司和算力平台洽谈，打造标杆客户。

其中，标杆客户包括有终端部署的形式，也包括跟云平台合作提供API调用。「现在的精力其实是更多在模型训练、开发者生态和融资，接下来会逐渐调整到产品和生态」。

「硬件的迭代周期，是天然的门槛」

基于大模型的Killer app尚未出现的当下，基于大模型的应用价值，引起了人们的诸多讨论。

Notion AI、Office 365 Copilot这样商业价值确定的应用，共同之处是在成熟的软件产品上新增AIGC功能。罗璇形容，这样的新功能，是「在原来定义好的场景下，提升效率，帮助人节省了劳动力。」

但是他认为，这样产品思路并没有带来增量价值；而且，只做效率提升，带来的商业价值很快就会见顶。他认为，如何用大模型带来的生产力创造增量价值，比如「让人们获得更多、更好的数字化内容」，应该是创业者思考的方向。

另外一个现象是，调用模型能力，从单点价值出发的创业团队似乎难以形成商业壁垒。「创业公司基于 ChatGPT 能够创造的价值非常单薄」的观点便是代表。

比如 Jasper.AI 这样调用模型能力应用的营销写作产品，在ChatGPT推出之后，反而迎来了流量下降。这意味着基础模型能力更强、更易用之后，具备覆盖一部分应用的能力。另外一个例子是 Gammaly，这个已经存在了十几年的写作辅助软件，在ChatGPT表现出优异的语言能之后，也面临着自证「Gammaly 能够提供更好的写作辅助」的新课题。

组织过十几场黑客松，作为经历过互联网时代产品老人，罗璇也表示目前的初创产品往往存在问题：

对于技术边界理解不深入。或者不知道现在的模型能做什么，或者不知道随着模型发展，未来能够做什么；这表现在，做出来的应用，是模型已经能实现的功能；或者想实现的效果，未来三到五年，通过模型能力也无法实现。

对市场竞争格局、现有市场供需关系理解不深入，这容易带来两种结果：做出来的产品很容易被有渠道的大厂直复制；或者做出来的东西没有市场需求，没有人用。

在大模型技术快速发展的当下，理解技术边界，思考技术会如何演变，对于产品经理而言变得更加重要，这样才能避免思考产品时刻舟求剑。

RWKV模型在进入终端硬件上有优势，罗璇本人也看好模型进入在机器人、XR等手机、PC之外的终端硬件之后所带来的可能性。首先，这些终端硬件带来激活新的应用场景，从而衍生出其上搭载的软件服务和数字化内容；其次，硬件的迭代周期很长，是天然的门槛。

「谁先做，就很有可能就有一些优势。」在黑客松中，为了鼓励硬件项目，他还专门设立了硬件奖项。深圳拥有的硬件产业链优势，也寄托了他「让AI发生在中国大湾区」的愿望。

RWKV：一个大模型小团队，要做 AI 时代的安卓

RWKV：一个大模型小团队，要做 AI 时代的安卓

诞生于个人开发者的创新模型

RWKV保持开源，元智能OS想成为大模型时代的安卓

「做ChatGPT现在不能做的」: 未来的模型会在端侧运行

「硬件的迭代周期，是天然的门槛」

Recommend

IOI Community Discord Server | 2023

MTE：以安全价值和客户体验巩固Arm新生态

ALIENWARE外星人推出全新Aurora R16台式机：简约而不简单

How MIT's Liquid Neural Networks can solve AI problems from robotics to self-dri...

Name before type: why 'age int' is better than 'int age'

腾讯混元大模型开始应用内测多个业务线已接入

OpenPubkey (Augmenting OpenID Connect with User held Signing Keys): Why I think...

Inside STL: The string

【干货】OLED行业产业链全景梳理及区域热力地图

Republic of Palau and Ripple Unveil Limited Stablecoin Pilot on XRPL

About Joyk