0

Aurora超算可解决最复杂的工程难题,也可用于运行最大的生成式AI模型

 1 year ago
source link: http://www.dostor.com/p/84846.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Aurora超算可解决最复杂的工程难题,也可用于运行最大的生成式AI模型-存储在线

当前位置:存储在线 > 新闻 > 正文

作为阿贡国家实验室Aurora超算的首席架构师和主要研究员,Olivier Franza在这台极具雄心的科学仪器落地的过程中发挥了主导作用。

2023082810355538.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_576

Aurora超算是英特尔最近参与的备受瞩目的项目之一,它对英特尔整个系统产品组合都挺有挑战性。事实上,Aurora超算不仅是世界上最大的GPU集群,同时,预计将成为第一台峰值性能达到每秒2百亿亿次(2×10^18)浮点运算能力的超算。

作为一位在英特尔工作了22年的老兵,在面对Aurora超算时,Olivier Franza还是感受到了压力。

2016年,Olivier Franza作为系统硬件架构师加入了Aurora项目,2021年,他成了首席架构师,目睹了Aurora项目向基于GPU架构的重大转变。

“首席架构师要做的就是根据客户的高标准要求,来调整超算的整体系统架构,”Franza解释说。“首席架构师也会关注一些基本的参数,比如总体性能指标,功耗情况,还有一些RAS(可靠性、可用性、可维护性)特性,这些对于构建有扩展性的系统都至关重要。”

当然,首席架构师要关注的是整个系统方方面面,从一个个节点到一个个机架再到整个系统,还要包括各种网络和存储组件,都需要考虑到。

一次技术路线转变为塑造未来产品创造了机会

Aurora超算是早期规划中计划采用一系列的英特尔产品技术。随着英特尔产品路线的调整,Aurora的规划也做出改变。

2023082810362168.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_576

当英特尔宣布打造数据中心GPU产品线后,Franza参与到了英特尔数据中心GPU Max系列产品的设计讨论工作当中。

所以说,Aurora超算不是一步到位成现在这样的。Aurora超算的构建过程,影响着英特尔战略和产品线规划,也使得Aurora超算能在很高的层面解决规模和性能问题。

Franza表示,英特尔通过从组件到系统做出很多调整来满足Aurora超算的需求。

比如,英特尔至强CPU Max系列处理器的架构和概念,就衍生自英特尔至强Phi的一些特性,这是第一个在封装里集成了高带宽和高容量创新内存架构的产品。

此外,为了追求更高的性能,Aurora超算的各种子系统都取得了一些进步,从刀片服务器的散热,到高密度集成的方式再到存储部分,都有许多创新。

值得一提的是,在这一过程中,英特尔还构建了一个全新的存储系统——DAOS(分布式异步对象存储)。

Franza表示,这是一个开源项目,可以在传统硬件上实现高速存储,而Aurora超算是首批使用DAOS的用户之一,同时也是目前DAOS部署规模最大的用户。

从设计组件到把数千个系统连在一起

Aurora超算项目加强了英特尔系统级思考能力,也推动了英特尔内部各业务部门之间的协作,与外部阿贡科学家和HPE(HPE是该项目的另外一个主要参与者)工程师之间的协作,有很多跨职能部门和跨组织的协作工作。

202308281034504.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_600

“让一整个团队统一行动,交付像Aurora这样的超级计算机,对我们许多人来说,是一生难得一次的经历。”Franza说。

尽管工程师在六月份就安装了最后一台刀片服务器,但Aurora超算后续的大规模测试、稳定性验证还需要Franza 夜以继日的工作。

Franza为一个大的团队提供指导,该团队负责Aurora超算的启动、验证、稳定、优化工作,尽可能发挥系统在负载下的性能表现。其中最值得注意的是High Performance Linpack(HPL)基准测试,这是Top500榜单的排名依据,榜单上都是全球最强的超算系统。

每天早上,Franza都会仔细检查每个节点在夜间的运行情况,并为第二天及以后的工作制定计划。每天下午,Franza都会开会总结进展和遇到的难题。这样的工作每天都有,而机器也一直在运转当中。

“我们会系统地进行验证,”Franza解释说。“先从单个刀片服务器开始,然后转向机架规模,再到多个机架规模,以此进行大规模验证。”

Aurora超算由10624台刀片服务器组成,拥有63744块英特尔Max系列GPU,是世界上规模最大的GPU集群。在166个机架当中,使用了一共21248块英特尔至强Max CPU。

Franza介绍称,Aurora超算中心的大小相当于4个网球场那么大,听起来规模就很大,但只有亲眼看到它,才会真正意识到它有多大。

Franza的首要工作就是确保系统稳定性,功能完善,还要能正常运行。这是一项非常艰巨的任务,而Franza已经看到了胜利的曙光。

走在数据中心的通道里,看着灯光闪烁着,看着机器在正常运转,这令Franza感到神清气爽,并且很有满足感和成就感。

“一生一次难得一次”的努力,打造解决科学难题的超级计算机

打造一座有影响力的科研超级计算机固然会面临很多难题和阻碍,但考虑到Aurora超算在癌症研究方面的巨大潜力,有机会让所有人受益,Franza内心的使命感支撑他走了过来。

Aurora超算不仅会用于解决世界上一些最复杂的科学和工程问题,它还是运行生成式AI,并将生成式AI用于研究的理想平台。

2023082810365980.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_576

据了解,Aurora超算将支持迄今为止,规模最大的大型语言模型,即1万亿参数的Aurora GenAI项目,从而提高科学家的工作效率、简化科学家的工作。

Franza做的是一件了不起的事情,而工作中令他感到欣慰的还有团队协作和友情。

Aurora超算是一项工程量浩大的项目,需要许多人付出长期努力,需要大量的毅力。

从Franza的介绍中了解到,其核心团队一直保持着马拉松式的心态,直到最后一刻都不能放松,团队需要的是那种能够长时间专注于极具挑战性事物的人,而这些人最终所取得的成就是大部分人都很难做到的。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK