6

燧原科技发布云燧智算机,定义人工智能算力中心建设实践

 2 years ago
source link: https://cn.technode.com/post/2022-09-03/enflame-launches-cloudblazer-pod/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

9 月 3 日,燧原科技在 2022 世界人工智能大会 “算尽其用·定义 AI 算力中心新实践” 云端算力产业应用论坛上正式发布云燧智算机(CloudBlazer POD)。云燧智算机是针对大规模、集约化人工智能算力应用场景推出的高性能人工智能加速集群产品,通过一站式预集成人工智能加速硬件、一体化开发与管理平台及配套人工智能应用软件与服务,可广泛应用于数字政府、科研院所、科创平台等企事业单位。

基于燧原科技过往多个大规模 AI 算力中心工程实践

作为国内已落地超千卡规模液冷 AI 集群的人工智能算力企业,燧原科技的第一代和第二代 “邃思” 芯片均已实际应用于大规模 AI 集群工程中,支撑融媒体生成、城市智能感知等多样化场景。根据过往落地实践,燧原科技发现,人工智能数据中心因其软件运维复杂,普遍具有方案选型难、各厂商产品兼容未知等痛点,而且数据中心部署交付周期长、沟通成本高、项目管理周期长。

  • 开箱即用,实现智算中心优异 TCO

云燧智算机采用一体化设计,是专为人工智能场景下计算、存储、网络、软硬协同设计的标准化产品,提供高可用的整体安全设计,确保集群架构扩展性能符合预期,提供包括采购、安装、运维一体的交钥匙方案。对数据中心的环境和 IT 计算资源提供全面的监控和管理,提高集群部署、测试的质量和效率,辅助用户提升运营效益和降低运行成本,帮助用户提升运维价值,为用户实现 AI 算力中心从交付部署到后期上线及运维管理全生命周期中的优异总拥有成本(TCO)。

  • 全局优化,提供卓越 AI 性能保障

云燧智算机代表了燧原科技经过多个大规模工程实践所形成的计算、网络、存储的整体设计:以全局优化为目标,基于计算、存储、管理网络分离,全互联无阻塞的网络架构,结合高效的多级存储方式,在强大的 “邃思” 芯片与 CPU 的异构算力支撑下,云燧智算机能够提供卓越的 AI 性能。

%E5%9B%BE%E7%89%872-2.png

云燧智算机整体设计

  • PUE=<1.1,满足新型数据中心要求

基于双碳目标以及绿色环保的总体趋势,无论是新型数据中心的规划建设,以及东数西算的政策性要求,都对数据中心整体能效(Power Usage Effectiveness,PUE)有明确的优化指标性要求。云燧智算机采用一体化冷板式液冷技术,实现单节点 8 颗高性能人工智能芯片液冷散热,通过液冷板等高效热传导部件将被冷却对象的热量传递到自然冷媒中,采用先进流量控制系统,大幅提高流量变化范围、降低能耗,拥有架构简约、系统可靠、智能监控等特性,PUE 可降至 1.1 及以下。

搭载经业务实证的 AI 芯片,软硬协同算尽其用

  • 突破 E 级算力,最高可支持超千卡规模集群

依托于 “邃思” 芯片核心能力,在典型配置下,云燧智算机每单元可达到 8PFLOPS 的 TF32 浮点算力,并且支持按需横向扩容,可支持数千卡规模集群,突破 E 级算力,打造业界领先的超级算力集群。

  • 软件协同,充分释放集群的生产力价值

目前算力构成复杂,多 CPU 架构,多异构计算单元,并且考虑到集群本身一般服务于多用户、多场景的特性,如何能够对上层用户屏蔽底层算力异构性、赋能用户高效开发与部署上线 AI 应用,真正释放集群作为生产力工具的价值——软件是关键要素。

燧池智算平台(CloudBlazer Station)是全栈式人工智能开发服务平台和通用的大规模算力管理平台,结合强大的云燧 AI 算力集群和先进的大规模算力资源调度,为用户提供人工智能模型生产及应用发布的全流程服务能够一站式满足复杂的人工智能业务场景对人工智能服务的需求。

%E5%9B%BE%E7%89%873-1.png
燧池智算平台(CloudBlazer Station)
  • 可支持超千亿参数巨量模型的高效、并行训练

大规模数据训练超大参数量的巨量模型是人工智能的发展方向,“预训练大模型+下游任务微调” 的模型开发方式将极大提升企业的 AI 应用开发效率,开发者只需要少量行业数据就可以快速开发出精度更高、泛化能力更强的 AI 模型。

而训练出一个大模型,除了算法和数据,还需要超大规模的算力支撑。基于云燧智算机所构成的大规模集群解决方案采用高带宽、全互联拓扑架构,计算、存储、管理网络全分离,计算节点内基于 GCU-LARE2.0 多芯互联技术提供近 1TB/s 的互联带宽,跨节点互联能力高达 600Gb/s,可实现千卡级大规模集群高速互联,具备优异的线性加速比以支撑超千亿参数巨量模型的高效、并行训练。

燧原科技创始人兼 COO 张亚林表示:“云燧智算机是结合了云燧训练和推理产品在行业落地的实践经验,以全方位降低 AI 算力中心部署和应用成本为目标所推出的全新系统一体化产品,面向大规模、集约化、绿色低碳数据中心建设。我们始终专注于客户的价值和体验,致力于为客户提供完备且易用的人工智能系统软硬件产品,同时积极响应国家绿色低碳高质量发展的战略目标。”


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK