4

新场景、新服务、新体验 QingCloud EHPC让超算触手可及

 2 years ago
source link: http://server.zhiding.cn/server/2021/1124/3137624.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

新场景、新服务、新体验 QingCloud EHPC让超算触手可及

作者:李祥敬   【原创】   2021-11-24 13:33:04

关键字: QingCloud HPC

凭借公有云的基因和专业的研发技术支持团队,QingCloud EHPC平台在用户体验、运维服务等方面比传统超算具有更多优势。

对于普通大众来说,高性能计算(HPC)给人的印象总是神秘且高深。这是因为此前它主要是学术界用来推进基础科学发现和探索的手段,上到宏观的宇宙大爆炸模拟、下到微观的量子物理和分子动力学研究。

但是新冠肺炎对我们的突然袭击,让很多人重新认识了高性能计算:不论是中国还是全球,领先的基因与药物研发机构,在高性能计算的支持下,少则数小时,多则几天就破解了新冠病毒的结构,并立即开始疫苗的研制。

高性能计算与我们的工作生活越来越紧密,近日青云QingCloud重磅上线EHPC高性能计算平台,基于尖端超算算力,结合公有云架构提供弹性伸缩、按需计费的高性价比方案。同时,打通云平台丰富的产品和服务种类,创新云化超算的服务新模式,更好赋能新科研、助力新场景。

高性能计算的新场景

前面我们说过,高性能计算在基因组学、生命科学、CAE 仿真、深度学习、地理测绘、影视渲染等应用场景有着广泛的应用。

但是随着新技术和新应用的发展,高性能计算的新场景也在不断涌现。青云QingCloud云平台&服务部高级总监陈海泉告诉记者,青云看到高性能计算领域出现了新的场景,那就是大数据、人工智能正在与超算融合。

具体而言,大数据驱动存储跟算力融合。以前建设超算中心的时候,普遍是以算力为主导,但在存储方面出现新的挑战,因为数据量和数据类型越来越多,这些数据都需要利用大数据技术进行处理和分析。

陈海泉说,大数据应用带来两个问题:存储容量比以前大很多;不同类型的业务对存储的要求也不一样。所以超算中心需要对不同的业务提供合适的存储类型。

当前人工智能应用出现爆发式增长。人工智能通常指的是机器学习,机器学习最常用的技术是深度学习,深度学习又分为训练和推理两个阶段,而这些要求超算中心有充足的GPU资源,并且还要提供对应的软件框架。

在医药领域,新冠疫情加速了大数据在医药和生命科学上的应用,促进了核酸疫苗和核酸药物的研发;在金融领域,通过深度学习技术训练出模型,应用在风控上面,可以让坏账率降低35%。

青云QingCloud EHPC产品经理苗慧表示,QingCloud EHPC提供灵活的使用模式,适配多种应用场景。通过统一管理的平台,使工程师、研究人员可以突破本地的HPC基础设施限制,快速开始云上创新。

对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供GPU桌面进行图形前后处理,完成一个闭环的业务场景。

对于大数据业务,QingCloud云平台提供的对象存储容量达245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够保证大数据计算的超高性能。

对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。

依托青云云平台的多种存储服务,用户可以按照自己的业务来选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储或者块存储等。

此外,通过虚拟化技术的加持,青云可以快速为不同业务构建其所需的运行环境,随时可以切换MPI、TensorFlow或者MapReduce软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。

苗慧说,整体来看,QingCloud EHPC提供了快捷、弹性、安全及互通的公有云高性能计算服务,具有四个优势:弹性伸缩,按需配置;只管使用,无需运维;资源租赁,性价比高;租户隔离,安全可靠。

革新传统超算中心使用体验

在陈海泉看来,传统超算中心存在不方便和不安全的问题,例如传统的超算中心用户,在使用时,需要提交一个申请,并且有人工审批的环节,当他得到审批通过后,还需要自己安装VPN客户端连接超算中心提供的登录节点。

新场景、新服务、新体验 QingCloud EHPC让超算触手可及

超算中心的登录节点往往是很多用户共享的。共享的节点有两个问题:一是超算中心为了保证其自身安全,不提供root权限,给安装软件带来一些麻烦。比如用户需要安装系统软件的时候,他需要出差到超算中心,现场指导当地运维人员安装自己要的软件,过程非常麻烦。二是Linux隔一段时间就会暴露出一些系统漏洞,如果被用户利用得到root权限,则能窃取平台上其他用户的数据。

针对这样的问题,QingCloud EHPC融合了云服务与高性能计算,把传统的审批制度变成用户自服务的形式,并确保安全,这些举措包括计算、网络跟存储的租户隔离,管理节点跟计算节点分离;除了传统的VPN接入,青云还能提供零信任客户端,让用户登录到超算中心的时候更便捷和安全。

在保障安全的同时,QingCloud EHPC让整个超算使用很灵活,提供了两种不同类型的超算集群:偏传统的共享型超算集群和新的独享EHPC集群。QingCloud EHPC的服务架构分为三层,资源层提供了高效的资源,管理层提供了方便快捷的管理服务,用户端提供交互使用体验极佳的控制台。

新场景、新服务、新体验 QingCloud EHPC让超算触手可及

最后,QingCloud EHPC还集成了化学工程、生物医药、大气海洋等多种行业软件平台。如工业仿真软件,提供一站式的使用体验:一是其求解集群能够提供弹性的算力,可以很快地完成运算;二是提供桌面虚拟应用,让用户完成图形的前后处理,覆盖用户使用工业仿真软件的整个流程。

“EHPC集群分为四个节点,分别是:登录节点、管控节点、计算节点和GPU可视化节点。这四个节点完全挂载了青云的共享文件存储以及共享软件仓库,这就是说用户所有的作业都可以使用青云的共享软件仓库。”苗慧介绍到。

超算业务大多是短期、大规模的方式,比如1万个节点使用4个小时,这就会导致两个问题:一是经常出现突发业务导致计算资源不够,其他用户要用的时候需要长时间排队;二是业务少的时候会出现大量资源空置,造成成本的浪费。

针对这样的情况,陈海泉表示,青云希望跟超算中心合作共建算力共享的算力网络,通过青云可以连接全网算力,既能以外部资源支撑突发业务,避免排队;又能在资源空置时,对外出售算力增加运营收入。

结语

凭借公有云的基因和专业的研发技术支持团队,QingCloud EHPC平台在用户体验、运维服务等方面比传统超算具有更多优势,依靠自身的超算经验以及技术领先的计算、网络、存储资源,青云能够提供更具灵活性、更好交互体验的高性能计算服务,持续赋能行业客户的业务发展。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK