6

存算一体,自动驾驶芯片的新机遇

 1 year ago
source link: https://www.geekpark.net/news/309459
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
综合报道
13min read

存算一体,自动驾驶芯片的新机遇

2022/10/13
d86a86ef2f0809d3898f19e6fee34564.jpg

存算一体,智能驾驶芯片的下一个赛点。

国产芯片的发展面临两个机遇。

首先是缺芯困局下,国产化替代的呼声越来越高,这无疑给国内芯片创业者提供了一个发展的缓冲期。对于 2020 年创业做大算力芯片的后摩智能创始人&CEO 吴强来说,「在芯片成长早期,这个条件是国内独有的,我在美国是不敢做芯片创业的。」

而在人工智能快速发展的当下,对于大算力的需求,给予了芯片创业新的机会。尤其是自动驾驶领域。

传统汽车以控制为主,算力要求很小,而 L4 级别的自动驾驶就要求 1000T 以上的算力,不仅如此,汽车端的供电和散热能力也对芯片的低功耗提出了新需求。虽然英伟达刚推出算力高达 2000T 的计算芯片 DRIVE Thor,但显然不是所有的车型都能装备这样的芯片。

对于被「卡脖子」的国产芯片厂商来说,想要参与这场「算力大战」,显然也无法指望依靠制程工艺去实现芯片算力的提升。

在吴强看来,存算一体芯片可能是国产芯片算力弯道超车的机会。相比较传统的冯·诺依曼架构芯片,「存算一体」架构能够整合计算单元和存储单元,优化数据传输路径,提高芯片算力天花板。在缩短系统响应时间的同时,也在能效比上带来了数量级的提升,更适合自动驾驶、泛机器人等边缘端算力的需求场景。

存算一体芯片的成本优势从而何来?如今又在哪些行业得到落地?国内芯片创业的机遇和差异化优势在哪里?在 9 月 28 日极客公园的 Rebuild 2022,极客公园创始人&总裁张鹏和吴强聊了聊存算一体大算力 AI 芯片的发展与未来前景。

2217ee64a1a21137abe51a6f18bad959.png

吴强做客极客公园的「Rebuild」栏目 | 来源:直播截图

大算力下低成

本的解决方案

张鹏:存算一体到底是什么?会带来哪些改变?

吴强:简单来说,存算一体是一种创新的计算芯片架构,相对于传统计算和存储分离的冯·诺依曼架构,存算一体更好地把存储和计算融合在一起,把存储和计算尽可能靠近,甚至完全融合,比如在存储中进行计算,这是存算一体的基本概念。

存算一体比较适合数据量很大的计算,例如当下非常火的 AI 计算,它做 AI 计算是最高效的,对 AI 计算来说是非常通用的。很多人有所误解,认为存算一体是非常专用的 AI 芯片,其实不是,因为存算一体本质上是乘加运算的加速,做矩阵运算会非常高效,矩阵运算本身就占据了 AI 计算中百分之八九十的计算成分。基于此,可以做出很多系列化的指令,一些非常细微的指令甚至可以允许客户自定义算子,那么就可以做出非常通用的 AI 芯片,类似于英伟达的芯片。

张鹏:存算一体的发展有哪些技术关键点?

吴强:存算一体在学术界有十多年的历史,一直在发展。最近几年,学术界的一些技术突破到一定程度,可以应用到更大算力的场景,比如智能驾驶或者主流的 AI 应用场景,才有了后续商业化的一些尝试。

首先从产业链的角度来说,是依赖于存储介质工艺,后摩智能目前的产品是基于 SRAM,我们还有下一代产品,基于其它一些存储机制:MRAM、RRAM 等。存储工艺依赖于上游厂商如台积电等,他们在做一些工艺或者硬件层面的创新。目前 RRAM 在台积电的成熟度属于风险等级,距离完全量产大约有两年时间。这是产业链的依赖,但是 SRAM 是一个完全成熟的存储介质,目前可以用作商业量产。

另外,存算一体是一种新的设计方式,是架构创新,虽然之前学术界做了很多,但基本是以学术研究的方式在做,从学术到商业量产还有一定距离。后摩和其他一些创业企业更多是按照商业量产的标准去做,过去两年,我们不断探索,比如怎么做量产,怎么做 DFT,怎么做冗余,怎么做自修复,这些都是我们要解决的问题。包括跟 AI 芯片、架构设计、编译器以及算法之间的融合等。

6760534530be2c1faa3b9b0ceeba9bde.png

存算一体架构与传统冯·诺依曼架构 | 来源:电子工程专辑网站

张鹏:存算一体的架构能在成本上带来优势吗? 

吴强:算力越大越需要高成本,存算一体的一个优势是如果不依赖于先进存储工艺,或者不依赖于先进的封装技术,像 HBM 的 2.5D 内存封装技术,也能把算力做上去,也能满足智能化诉求,这样成本能控制下来,比如降到一半的成本,也许十多万的车就能用得起几百 T 算力的芯片。所以我们首先想的不是通过堆工艺或者其他东西把算力做上去,而是通过底层架构的创新,把算力做上去,成本又不增加,让更多的平价车能够用到更智能的自动驾驶技术。

第二,如果功耗低,散热就会简单,不像之前需要很多资金或者增加系统的复杂性。从这几方面,我们希望能够给智能驾驶的用户提供一个不一样的芯片。

张鹏:存算一体的大芯片对芯片工艺的要求更高吗?

吴强:存算一体是架构的创新,工艺是两个维度的事情。首先好的工艺肯定是好事,我们现在也会用先进工艺,因为本身是叠加的工艺,如果没有先进工艺,比如某一天国内所有玩家必须退回到 28 纳米,对存算一体来说,对先进工艺依赖度其实是更低的。相对于常规的设计方式,这是我们的一个优势。

张鹏:感存算一体最近讨论也比较热,你们如何看待?

吴强:感存算一体就是把传感器、内存更好地结合,以便更好地计算。这是一个比较新的概念,最近几年学术界研究比较多。目前感存算不管是算力还是存储量相对都比较小,数据处理方式和功能相对来说比较有限,比较适合 AR、IoT 等场景,还不太适合大算力场景,暂时我们不会往这个方向走,但会密切关注。

国产化替代的需求

催生了芯片创业

张鹏:决定在 2020 年创业的考虑是什么?是有什么新的技术突破吗?

吴强:第一点是技术上的突破,传统的存算一体是基于一些传统的存储介质,比如 Nor Flash,Nor Flash 本身只适合做小算力的场景如语音等。2017-2018 年开始,存算一体技术开始突破做大算力,基于 SRAM 去做,SRAM 和其他一些存储介质更适合大算力。首先以台积电张孟凡老师为代表的学术界,把整个电路设计做了一些突破,让做大算力的存算一体变得有可能。

第二点是需求方面刚好发展到一个阶段,不管是智能驾驶,还是云端,对算力要求越来越大,行业内也遇到了一些瓶颈和痛点。我之前的工作做过 CPU、GPU,后来也做 AI 芯片,发现很多时候算力上不去,不是计算部分不行,而是带宽变成了一个瓶颈,很多时候处于计算等待数据传输的状态。想提高算力就要优化带宽,这是一个痛点,我们也一直在思考怎么解决数据带宽这个瓶颈问题。

在创业初期,创始团队大概有两拨人,一拨人是存算一体的大牛,一直在做存算一体,尤其是大数量存算一体技术。另一拨人像我一样是一直做大芯片的,CPU、GPU、AI 芯片等。我们在一起头脑风暴之后,觉得存算一体已经到了一个节点,可以商业落地,发展到足够成熟的地步,可以解决一些现实的痛点。另一方面,需求方对传统芯片设计有越来越高的要求,很多痛点没法解决,用存算一体也许可以解决这些问题。后摩智能在 2020 年创立的时候,是国内第一个用存算一体做大算力的企业,也是唯一的一家。现在存算一体越来越火,我们也很高兴看到更多公司一起加入这个赛道。

张鹏:创业做一家芯片公司,当时是怎么评估可行性的?

吴强:之前在硅谷生活了很多年,见证了国际芯片巨头的发展。首先做芯片是很难的一件事,国内的芯片创业公司特别多,为什么国外没有那么多芯片创业公司?首先芯片的创业需要很多高级人才,人才密集以及资本密集,落地时间相对来说比较长。在国外纯商业的环境下,很难做商业创业。这也是为什么美国从 2010 年以后,真正的芯片创业公司没有几个,当然有一些大牛,像吉姆·凯勒 (Jim Keller,Apple A4、A5 处理器和 AMD Zen 系列处理器的主设计师),但是大家都还没有跑出来。

中国有个天生的优势,我们有国产替代的诉求,国家重视,给了芯片创业的企业足够的成长空间,这是非常重要的。在芯片成长早期,这个条件是国内独有的,我在美国是不敢做芯片创业的。但是在国内特别是 2020 年左右有这样的契机,虽然并不能保证一定成功,毕竟只是给你一个机会,最终还是要做出回归商业本质的产品。

所以还是要产品的差异化方面做得更好,怎样做出一个东西,即使拿去跟英伟达相比,仍然具备一定的差异化,在局部有一定的优势,而不单单是国产替代。

张鹏:芯片公司对人才的要求很高,你们公司现在的技术人员构成是什么样的?

吴强:我们和其他芯片公司又不太一样,毕竟我们用的是创新的构架,首先需要的是一些有学术背景的人才,做过存算一体研究的,要对存算一体的电路构架包括工艺层面都比较熟悉。这可能是其他芯片公司不需要的。

其次,我们做的是大芯片处理器,而且还是应用于 AI 的处理器,存算只是其中一个环节,首先还要考虑的是如何设计一款复杂的芯片,要对 AI 的算法有充分的理解,这样的人才能做出符合 AI 应用场景的 AI 芯片。

最后还需要芯片之外的软件设计人员,之前有文章分析说国内的芯片公司其实硬件差距并不大,关键还是软件系统如编译器等的差距比较大。硅谷尤其是英特尔有很多编译器相关人才,但是国内很缺。好的芯片需要配合上好的编译器,好的系统软件和工具链,才能让客户觉得芯片性能好。很多创业公司最后无法落地,就是因为编译器人才比较缺乏。

张鹏:在理想状态下,存算一体架构在成本、功耗方面会带来什么级别的优势?

吴强:英伟达能做 2000T 是因为有很强的工程积累,工程能力很强,用最新的工艺,用最好的 HBM,我相信他是能做出来的。但如果是一个创业公司,工程能力包括资源不如巨头,想做这样的东西,通过架构的创新,比如存算一体,是可以用更低的成本去做的。成本上我们希望能做到英伟达一半的成本,但功耗上我觉得存算一体理论上可以做一个数量级的提升,能效比希望至少是 2-5 倍的提升。

4238f3749558b51aff45a02dc6e98761.jpeg

后摩智能的存算一体大算力 AI 芯片验证片 | 来源:电子工程专辑网站

张鹏:以前存算一体基本是往可穿戴上做小算力低功耗,后摩智能直接做大算力,难度是不是很大? 

吴强:难度是更大的,首先有两层难度,第一,存算一体首先要解决很多问题,比如数据精度问题,大算力的话,精度要支持 INT8。另外需要解决电路层面的容量问题,因为模型要大,怎么样把精度做好做高,这是电路设计的问题。

另一个大的难度是大芯片本身除了存算之外也很复杂,一个 AI 处理器如果能处理几百 T 的算力,那么相应的其他东西也不要大,比如 CPU 怎么设计,除了存算之外,对 vector 的支持和其他的支持,编程的内存怎么做,这些都是大芯片的要求,包括怎么配合编译器、配合算法、量化怎么做。这些跟存算没关系,是大芯片本身的复杂度。对人才的要求也高,毕竟中国做大芯片是近几年开始,这部分的人才也是国内比较缺的。

张鹏:为什么不做云端的算力提升,而是直接做边缘计算?

吴强:云端相对来说应用场景比较广,如果做训练芯片,英伟达的软件生态壁垒特别厚,这是个挑战,很多国内创业同行都要面临这个挑战。另外云端数据中心有很多应用场景,相对来说对软件的挑战会更大。云端对功耗不是那么敏感,毕竟在数据中心你也可以用空调等降温设备,低功耗当然是个优势,但不像边缘端是绝对的优势。

芯片公司的竞争

壁垒是软件生态

张鹏:如何理解你们宣传的软硬解耦?

吴强:这是我们设计芯片的一个理念,我们希望定位为芯片公司,把芯片做得有差异化、有优势。做自己的工具链、编译器,把这些做好,能够支持更多客户,客户可以有自己不同的算法,各种算法我们都尽可能支持,这就是软硬解耦,应用层和芯片层尽可能解耦,重点把芯片和编辑器打造得更好。

所以对芯片的通用性要求比较高,这是一个挑战。怎么支持各种各样不同的算法、不同的用户?我们从创业第一天就希望不单是提供算力,还能提供更底层的接口,让客户可以自己定义算子,这样可以在算法上具有更大的空间和自由度。各种各样的客户都可以在上面使用我们的芯片,我们的芯片将来的应用场景会更广阔。这是我们一直坚持的技术方向。

张鹏:软硬解耦在商业模式上会是一个很大的挑战吗?

吴强:我们在中国做芯片除了国产化之外,还提供贴身服务,但贴身服务需要有个度。前面的客户我们可以用新的东西,帮助客户一起把整套方案做出来,但是后面的客户我们希望变成一个标准化的东西,可以用我们很好用的工具链,让客户自己去做,这样的芯片公司才能做大,不用每个客户都投入一堆人人力,这是我们的目标,这样做的话必须是软硬解耦,我们一直在朝这个方向努力。

希望慢慢地将整个供应链变得很标准化,用最小的支持,能支持更多客户,客户才会越来越多,我们也可以不停打磨我们的工具链,这是我们一直以来的奋斗目标。

张鹏:还有哪些其它场景是存算一体未来有机会发挥优势的?

吴强:存算一体的特点是可以把算力用更低的成本方式做大,另外能效比很高,功耗更低。很多场景如果对智能化要求比较高,对算力要求也比较大,同时对功耗比较敏感,比如电池驱动,边缘端很多都是电池驱动的,这些都是可能的应用场景,说白了是市场需求和产品特性相匹配。

比如无人机需要做一些避障、智能飞行、自动返航等,和其他更高级别的智能化,我们又希望无人机小巧,大疆的很多无人机在 500g 以内,最小的有 250g,电池不大,又要保证续航,算力要求又很大,对功耗也敏感,这就是个天生的矛盾。我们有没有可能做出一个能效比极致高的大算力芯片,让即使很小的无人机也可以很智能?哪怕是大无人机,像美团的货运无人机,功耗低可以让电池部分承担更多货物,而不是用来做计算,这些是可能的应用场景。

包括现在酒店和家庭使用的机器人,大家对于这类服务机器人的智能化需求会越来越多,它们本身也是电池驱动,想提高算力也需要考虑存算一体。甚至还有 VR 设备,作为边缘设备,由电池驱动,需要做环境感知,也需要算力的支持,这也是一个可能的应用场景。

张鹏:你们的差异化的竞争优势是什么?

吴强:大芯片领域竞争很激烈,首先是英伟达、高通这样的国际巨头,还有一些国内的创业公司走在我们前面。我们要想生存下来,经营策略还是不太一样。对于巨头来说,多少有点农村包围城市的一些想法。

第一,首先是要选择一个合适的环节,不要碰巨头最强的部分,这里就包括了产品定位,比如赛道,选云端、选边缘端、选乘用车、无人车、无人机、机器人、安防等,每个人都会选择自己比较舒适的赛道。同时又有很多细化的领域,怎么去选择?巨头相对薄弱的环节去打,这点很重要,最好选择相对来说巨头不太重视的领域,比如说无人车,我们先切入进去,逐渐形成农村包围城市的概况。

其次是差异化,英伟达在推 2000T 算力的芯片,我们并没有必要去比拼算力,而是去寻找一些英伟达还没有解决的或者暂时解决不了的客户的痛点。比如很多车企希望在中端车上也上大算力芯片,同时对功耗和散热又比较敏感,这种需求就是英伟达暂时没有满足,而我们可以提供的服务。找到差异化,局部做到极致,这也是当年很多互联网巨头能够崛起的原因。

张鹏:如果英伟达这样的巨头未来也要做存算一体,你们会怎么应对?

吴强:创业之初很多人问过我这个问题,首先存算一体目前还是比较新的,尤其是大算力相关,基于 SRAM,对我们来说有技术积累,给了我们一个先发优势。对于英伟达来说,进入一个新的领域,会有自身的一些壁垒。因为它之前所有的积累都是在传统方式上去做,很多架构上的积累是基于 GPU 的,架构上的积累和软件上的积累都是在另一个方向。如果转到存算一体,需要抛弃很多旧的东西,才能进入一个新的领域。后摩没有这样的包袱,因为我们是从零开始,本来就一无所有。

英伟达进入这个赛道还会有一段时间,除非他发现存算一体已经可以大规模商业化或者认为对它造成了威胁,这给创业公司带来一段时间上的先发优势。

如果有一天英伟达真的要进来,怎么办?基于 SRAM 的储存是不是壁垒?基于 RRAM 的储存是不是壁垒?我的观点一直是任何技术本身都不是壁垒,只能给你一定的先发优势。我们在这方面有最长的技术积累,是国内第一个做这些的,我们希望尽快把技术优势转化成产品优势,能拿出一个好的产品,不能是改良款,而是性能上一定要比别人好很多倍,最好是 2-5 倍,别人才愿意尝试这个芯片。

我们希望能有更好的芯片,解决一个确实的痛点,让别人愿意尝试,逐渐用自己的软件生态作为护城河。真正的护城河不是技术本身,而是软件生态。我的软件生态、工具链、合作伙伴,这才是真正的护城河,真正的壁垒。有一天像英伟达这样的巨头进来,可以有一定的壁垒去阻挡巨头。


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK