7

赛道Hyper | 爆点来了:用LLM成功设计芯片

 1 year ago
source link: https://awtmt.com/articles/3691629
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

赛道Hyper | 爆点来了:用LLM成功设计芯片

周源 发表于 2023年06月21日 03:43
摘要:AGI可不是用来回答弱智问题的。

用ChatGPT聊个天或通过Midjouney画张图,其高度的智能性,让全球大叫“哇塞”。但是,GPT的基础设施LLM,更性感的能力,竟已能在高精尖领域——芯片设计,达成新成果。 

这是堪称逆天的AGI能力。 

最近,纽约大学Tandon(坦顿)工程学院的研究人员,通过GPT-4设计并流片了一颗芯片。 

通过据称是比较简单的英语对话,CPT-4生成了可行的Verilog(硬件描述语言)。接着,这些技术人员就将基准测试和处理器发送到Skywater 130 nm穿梭机上,实现了成功流片(Tapeout)。 

在芯片设计和制造领域,以摩尔定律的标准看,130nm工艺制程,太过落伍,但这却是AI技术史上货真价实的重大突破。 

用LLM设计芯片? 

从GPT的英文全称“Generative Pre-trained Transformer”可以看到,这是个生成式预训练模型。 

OpenAI首席科学家、ChatGPT背后的技术大佬伊利亚·苏茨克维(Ilya Sutskever)说,GPT(生成式预训练模型)学习的是“世界模型”。Sutskever将互联网文本称作物理世界的映射。因此,将海量互联网文本作为学习语料的GPT学习到的就是整个物理世界。 

很清楚,生成式的能力,建立在学习语料的预训练模型基础上。 

那什么是预训练模型? 

2017年,Google大脑团队在神经信息处理系统大会发表了一篇名为《注意力是你所需要的全部》(Attention Is All You Need)的论文。 

这篇论文的作者在文章中第一次提出了一个基于注意力机制的Transformer模型,并且把这个模型首次用在理解人类的语言上,这就是自然语言处理(NLP:Natural Language Processing)。 

Google大脑团队利用非常多已公开的语言数据集来训练这个最初的Transformer模型,而这个Transformer模型包括6500万个可调参数。 

经过大量训练后,这个Transformer模型在英语成分句法分析、翻译准确度等多项评分上都在业内达到第一的水准,世界领先,成为当时最为先进的大型语言模型(LLM:Large Language Model)。 

2018年,OpenAI公司在研究Transformer模型时有了自己的技术突破。OpenAI发表了论文《用生成式预训练提高模型的语言理解力》(Improving Language Understanding by Generative Pre training),推出具备1.17亿个参数的GPT-1模型。 

GPT-1模型是一个基于Transformer结构的模型,但训练它的数据集更为庞大:包括7000多本未出版的图书,并涵盖多种类型,如言情、冒险、恐怖、奇幻等。在对模型做大量预训练后,OpenAI还在四种不同的语言场景下,利用多种相异的特定数据集对模型做进一步训练。 

最终OpenAI训练出的模型GPT-1,在文本分类、问答、文本相似性评估、蕴含语义判定这四个评价维度上,都取得了比基础Transformer模型更好的结果,因此也取代Transformer模型,成为新的LLM龙头。 

OpenAI在2022年神经信息处理系统大会中,推出新的大型语言预训练模型:ChatGPT。GPT-3.5是ChatGPT的前身,也是OpenAI对GPT-3模型做微调后开发出来的模型。在GPT-3.5诞生后,ChatGPT问世。 

不难看出,ChatGPT的“地基”是基于Transformer结构的模型。换句话说,LLM用Transformer体系结构,构建了ChatGPT。 

明白了这个逻辑关系,再来看看用GPT-4设计并成功流片的130nm芯片的AI“生成”情况。 

通过LLM的加持,芯片设计行业的关键技术节点“HDL”被成功攻克。芯片设计和开发的门槛大幅降低,速度也因此得以加快。

什么是HDL? 

HDL,即Hardware Description Language,自动化硬件描述语言,也就是面向接口编程:对硬件电路做行为描述、寄存器传输描述或者结构化描述的一种设计语言,包括主流的VHDL(偏重逻辑综合,用于大规模系统设计)和Verilog HDL(侧重底层统合,IC设计应用主体)。 

使用HDL能提高数字电路设计的效率和可靠性,同时也可降低仿真和验证成本。因此,HDL在数字电路设计和系统集成中得到了广泛应用。 

这怎么做到的? 

纽约大学坦顿工程学院的那些研究员,通过GPT-4,完成了首个由AI生成的HDL,这能被直接用以制造物理芯片。 

在这个过程中,这些人并非用专业的HDL语言,而是用了普通英语。通过GPT-4的生成式AI,普通英语也能起到像HDL这样的专用硬件描述语言一样的作用。 

这是一座里程碑。 

纽约大学坦顿工程学院电子和计算机工程系以及纽约大学网络安全中心研究助理教授Dr.Hammond Pearce,是这个研究项目“Chip Chat”的领导人。 

Pearce说,他特别想了解基于生成式AI的AGI(通用人工智能:Artificial General Intelligence)语义大模型(LLM)在硬件设计领域的能力和限制边界。 

“硬件描述语言(HDL)的最大挑战是没多少人知道具体该怎么用。”Pearce说,“要成为HDL专家(通常是硬件工程师)非常难。我不是芯片设计专家,但通过GPT-4,用日常语言(而非HDL)设计了这颗芯片。” 

当然,Pearce团队设计芯片,也遵循了设计流程图和评估标准。因此用GPT-4设计的芯片,也达到工业标准。因而在Skywater 130nm shuttle上得以被成功制造出来。 

看上去,可以用LLM替代HDL。 

一般来说,开发任何类型硬件(包括芯片),首要第一步,都要用日常语言描述硬件功能,通常称为产品定义。 

在这之后,再经过具有专业技能的工程师,将这些定义翻译成硬件描述语言(HDL),由此创建允许硬件执行任务的实际电路元件。后面还继之以硬件验证语言(HVL:Hardware Verification Language),用于电子电路设计验证。 

LLM不仅可以用于一般商业应用的交互(问答),也能用于替代硬件设计的HDL环节,提高设计效率。 

Pearce团队是怎么问的呢? 

“让我们一起做个全新的微处理器设计。我们在空间和I/O方面受到严重限制。因此我们必须装入1000个标准单元的ASIC(专用芯片),所以我认为我们需要限制自己,采用基于累加器的8位架构,没有多字节指令。鉴于此,你认为我们应该如何开始?” 

这种问答来回125次后,一颗130nm工艺制程的芯片就通过LLM制造出来了。 

尽管验证成果惊人,但这不意味着普通人也能通过LLM设计出符合工业标准的芯片。比如在125次来回问答中,没有芯片专业知识的普通人,很难问出能出成果的好问题。虽说能提出问题,就是解决了一半的问题。但这种问题,绝非随意胡乱提问的结果。 

Pearce团队曾经测试过LLM将英语转换为Verilog的效果,但结果显示,专业工程师加入GPT-4的交互过程后,LLM才产生了最好的Verilog。 

Pearce也说,“通过GPT-4,HDL专家能专注于更重要的任务,而基础工作,可以交给LLM。” 

实际上,这件事的意义是Pearce团队首次探索并验证了在硬件领域使用LLM的效果。但是,目前仍不清楚这个研究团队是否应用了“基于人类反馈的强化学习(RLHF)”训练方法。这种方式能通过将其与特定意图的标记数据结合,可生成更能遵循用户意图的指令调优模型。 

此外,这项应用能否被大规模用于商业芯片设计,还没有定论。比如,这项工作的目标是以对话交互方式设计硬件,Pearce团队没有自动化这个过程的任何部分,每个对话都需要手动完成。如果无法实现大规模自动化,那么商业化就存在困难。 

因此,虽然这项实验取得了惊人的成果,或许称得上是一座AGI技术验证的丰碑,但距离真正发挥商业价值,也许还有一段不短的路程要走。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK