6

直播回顾|论道原生:云原生如何发挥 AI 算力效能

 2 years ago
source link: http://blog.daocloud.io/8253.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
直播回顾|论道原生:云原生如何发挥 AI 算力效能

云原生火了,在各行各业遍地开花。在 IT 领域,似乎一切皆可云原生。而 AI 作为被写进新基建的七大领域之一,也是 IT 行业家喻户晓的当红花旦。那么云原生 + AI 会谱写出怎样的乐章?

5 月 31 日 19:00,在论道原生直播间,「DaoCloud 道客」云原生技术工程师 – 许浩携同「趋动科技」售前解决方案顾问 – 彭良志,从讨论人工智能平台建设,到分享 AI 算力池化解决方案,一起探索 AI 遇上云原生的奇妙之旅。

01

DaoCloud人工智能平台

许浩老师的分享主要分为三个方面,AI 技术背景与挑战、解决方案和应用场景。

众所周知,伴随 “新基建” 的启动,AI 加速普及,相关产业的市场规模和发展前景巨大,随之而来,AI 加速器市场规模也水涨船高、迅猛发展。数字经济时代,AI 成为了企业新的生产力之一,那么企业需要什么样的 AI?可以总结为五个关键点:快速验证、可移植、可复现、灵活兼容、生产就绪

在我国市场上,金融、电信、零售、医疗、制造等行业,对 AI 相关技术十分感兴趣,但是由于缺乏平台和应用开发的技术能力,以及对 AI 投资回报率的认知存在误差等,AI 在这些传统企业的应用成熟度,还处在一个很低的水平。如何解决企业在 AI 应用开发中遇到的挑战和难题,可以从三个方面着手。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

首先是要了解企业 AI 开发模式的演进情况,其次需要思考:对于企业来说,一个标准的 AI 开发平台应该具有什么样的能力?最后需要明晰传统分布式计算和云原生分布式计算的差异

直播回顾|论道原生:云原生如何发挥 AI 算力效能

针对 AI 开发遇到的问题和 AI 开发演进的方向,结合云原生技术优势,「DaoCloud 道客」提供两种方案。第一种是针对算力利用率的优化,联合趋动科技提供了 GPU 资源池化云服务联合方案,基于「云原生应用云平台 DaoCloud Enterprise」,全面整合底层基础设施的计算、网络存储、GPU 等资源,实现 GPU 的灵活调度和资源池化,让企业内的 AI 用户可共享数据中心内所有服务器上的 GPU 算力,不必关注底层资源的具体细节,助力企业 AI 应用开发敏捷化和高效化。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

第二种方案实现了 AI 模型开发一体化,将符合中国人工智能产业发展联盟定义标准的 AI 开发平台 –「超道云原生人工智能算力平台」,结合 GPU 资源池化云服务联合方案,为企业提供完整的 AI 开发平台解决方案。

「超道云原生人工智能算力平台」打造弹性扩展、高效统一的算力基础设施、适配多种算法模型和主流框架、提供端到端的 AI 应用全生命周期管理能力、支持企业级多租户管理等,可满足企业多个层次的需求。同时,平台提供多元异构算力服务,结合 Kubernetes 的容器编排技术,实现大规模的 GPU 集群的高效计算,能够和大数据计算、深度学习计算、业务计算等场景深度融合,在语音识别、智能制造、数据挖掘等多种场景中有着良好的应用,有效降低人工智能开发、应用的难度,加快产品或服务的上线速度,减少管理开销,增强企业的竞争力,帮助各行各业加速 AI 能力的应用和落地。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

这两种方案适用于各种细分场景,如交通、互联网、金融、教育、医疗、电信、遥感、安防、制造业、能源等。例如,在教育行业,学校 AI 开发实践通常采用 “发教科书” 的方式,一个学生一个实训机,这会导致:每个学生的实训平台和他们开发出来的模型算法,都无法统一管理,使用起来非常割裂,并且为每个学员去配套相关的基础设施,投入成本非常高。

通过采用「超道云原生人工智能算力平台」,可以实现技术设施资源的统一管理,并且配套的开发流程运行在容器之上,能够提供完善统一的开发和教学体验,帮助学校的老师节省学习成本,也能够让学生把学习的重心聚焦在 AI 开发上,而不是系统环境的调试上。

大势所趋随需而动

彭良志老师的分享主要包含三个方面, OrionX AI 算力资源池化解决方案、GPU 池化联合方案和案例。

目前,AI 算力领域面临着:算法工程师与算力资源配比难、GPU 资源整体利用率低、资源分配不够灵活、如何与当前云环境融合、资源分散难以统一管理、额外的运维和调优工作等挑战。基于以上问题,业界首先通过 GPU 虚拟化的方式来解决,随后演进到了第四阶段 — GPU 资源池化技术,既能进行远程调用,又能进行虚拟化,也可以和现有的云平台进行融合。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

趋动科技提供的 OrionX AI 算力资源池化解决方案,综合了上述四个演进阶段的技术,实现任意虚拟化、远程调用、资源池化等能力,给客户提供一个全面的 GPU 资源池化的能力,帮助客户构建数据中心级 AI 算力资源池,统一纳管多种 GPU 算力卡,包括英伟达全系列、寒武纪最新系列等,提供 8 卡、16 卡甚至 32 张卡的算力,同时可以为应用提供更细粒度的算力,如 0.2、0.3 等,可以满足用户隔空取物、化整为零、化零为整、显存扩展、随需应变以及动态超卖等多场景应用需求。

直播回顾|论道原生:云原生如何发挥 AI 算力效能

OrionX 不但能够帮助用户提高 AI 算力资源利用率,还可以极大便利用户 AI 应用的部署。通过软件定义 AI 算力,颠覆了原有的 AI 应用直接调用物理 GPU 架构的逻辑,增加软件层,将 AI 应用与物理 GPU 解耦合。OrionX 架构实现了 GPU 资源池化,让用户高效、智能、灵活地使用 GPU 资源,达到了降本增效的目的。此外,OrionX 软件部署方式灵活,支持 KVM 部署、容器化部署以及 KVM+ 容器化部署

「DaoCloud 道客」& 趋动科技提供的 GPU 资源池化云服务联合方案,实现在容器云平台上进行 GPU 资源细粒度管理和监控的目的,屏蔽硬件基础设施管理的复杂性,有效缓解计算压力,大幅提升 AI 应用的业务效率并避免供应商锁定,因此可被广泛应用于深度学习训练、科学计算、图形图像处理等场景。

如,针对证券公司为客户提供 “智能投顾”,对理财师提供 “智能投研” 的 AI 推理服务,传统架构下,业务并发量受限于集群内物理 GPU 的数量,不具备业务伸缩能力。GPU 资源池化云服务联合方案实现了统一管理调度 GPU 资源,提升业务并发量规格,支持不同代的算力卡混合池化,同时基于容器编排技术实现单一用户界面即可调度 CPU 和 GPU 资源的能力,充分满足业务高并发场景需求。

更多方案和技术细节,可观看回放了解,欢迎添加小助手加入群聊,为大家提供直播回放和演讲 PPT,以及技术交流。

图片

在此感谢大家的积极参与,我们将继续为大家带来更多更好的内容。

本次活动的纪念品,待疫情结束解封后将陆续寄出,希望大家每期都能有所收获,我们下期再会。

DaoCloud 公司简介:「DaoCloud 道客」云原生领域的创新领导者,成立于 2014 年底,拥有自主知识产权的核心技术,致力于打造开放的云原生操作系统为企业数字化转型赋能。产品能力覆盖云原生应用的开发、交付、运维全生命周期,并提供公有云、私有云和混合云等多种交付方式。成立迄今,公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕,标杆客户包括交通银行、浦发银行、上汽集团、东风汽车、海尔集团、屈臣氏、金拱门(麦当劳)等。目前,公司已完成了 D 轮超亿元融资,被誉为科技领域准独角兽企业。公司在北京、武汉、深圳、成都设立多家分公司及合资公司,总员工人数超过 400 人,是上海市高新技术企业、上海市“科技小巨人”企业和上海市“专精特新”企业,并入选了科创板培育企业名单。

未经允许不得转载:DaoCloud道客博客 » 直播回顾|论道原生:云原生如何发挥 AI 算力效能


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK