AI推理、语音AI、医疗AI，NVIDIA GTC 2021诸多AI计算产品更新

作者：李祥敬【原创】 2021-11-10 11:14:54

关键字： NVIDIA

在近日举行的NVIDIA GTC 2021线上大会上，NVIDIA发布了诸多创新软硬件产品，包括Triton推理服务器、A2 Tensor Core GPU、NVIDIA Riva定制语音、大型语言模型、面向医疗健康行业的新计算平台Clara Holoscan。

当前AI正在席卷各行各业，而支撑人工智能应用创新离不开坚实的AI计算平台。在近日举行的NVIDIA GTC 2021线上大会上，NVIDIA发布了诸多创新软硬件产品，包括Triton推理服务器、A2 Tensor Core GPU、NVIDIA Riva定制语音、大型语言模型、面向医疗健康行业的新计算平台Clara Holoscan。

NVIDIA AI推理平台更新

在人工智能的工作负载中，训练和推理是两个重要类型。

AI推理、语音AI、医疗AI，NVIDIA GTC 2021诸多AI计算产品更新

在NVIDIA GTC 2021上，NVIDIA宣布其AI推理平台的重大更新，包括开源NVIDIA Triton推理服务器软件的新功能，该软件为所有AI模型和框架提供跨平台推理；同时也包含对NVIDIA TensorRT的更新，该软件优化AI模型并为NVIDIA GPU上的高性能推理提供运行时优化。

NVIDIA还推出了NVIDIA A2 Tensor Core GPU，这是一款用于边缘AI推理的低功耗、小尺寸的加速器，其推理性能比CPU高出20倍。NVIDIA A2与适用于主流企业服务器的 NVIDIA A30 、适用高性能AI服务器的NVIDIA A100一起，为边缘、数据中心和云端的AI推理提供了完整的方案。

Triton推理服务器的更新包括：Triton模型分析器、多GPU多节点功能、 RAPIDS FIL、 Amazon SageMaker集成、支持Arm CPU等。

Triton支持在云、数据中心、企业边缘和嵌入式设备等环境中对GPU和CPU进行AI推理，并与AWS、Google Cloud、Microsoft Azure、阿里云PAI-EAS等平台集成。此外，NVIDIA AI Enterprise也集成了Triton。

除了Triton外，TensorRT现在还与TensorFlow和PyTorch集成，只需一行代码就能提供比框架内推理快3倍的性能。这使得开发人员采用极为简化的工作流程就可以体会TensorRT的强大功能。

NVIDIA TensorRT 8.2是SDK的最新版本，可加速高性能的深度学习推理，在云端、本地或边缘提供高吞吐和低延迟。有了最新的性能优化，数十亿个参数的语言模型可实现实时运行。

目前Capital One、Microsoft、Samsung Medison、Siemens Energy、Snap等25000多家客户都在使用NVIDIA AI推理平台。

加速语音AI突破

在不到三年的时间里，NVIDIA的对话式AI软件已实现25万次以上的下载量，在众多行业得到广泛应用。而在NVIDIA GTC 2021上，NVIDIA宣布推出NVIDIA Riva定制语音，其是NVIDIA Riva语音AI软件的一项功能，它提供强大的功能，Riva SDK包括先进的自动语音识别和文本到语音转换功能，可根据不同的口音和领域进行定制。它还能够将语音服务扩展到云、数据中心及边缘。

AI推理、语音AI、医疗AI，NVIDIA GTC 2021诸多AI计算产品更新

企业可以使用Riva定制语音打造具有专属语音的虚拟助理。呼叫中心可以借其快速开发具有辨识度的品牌语音，为客户提供服务。开发者可以借其创建各种各样的应用程序，为有语言障碍的人提供支持。

对于自然语言相关的问题，比如机器翻译，最重要的问题就是文本的序列是不是符合我们人类的使用习惯，语言模型就是用于评估文本序列符合人类语言使用习惯程度的模型。

大型语言模型已被证明是灵活且功能强大的，无需专门的培训或监督，即可回答深层次领域问题，翻译语言，理解和总结文件，编写故事和计算程序。

在NVIDIA GTC 2021上，NVIDIA推出了为训练具有数万亿参数的语言模型而优化的 NVIDIA NeMo Megatron 框架、为新领域和语言进行训练的可定制大型语言模型（LLM）Megatron 530B。

NVIDIA NeMo Megatron和Megatron 530B结合NVIDIA Triton推理服务器以及NVIDIA DGX系统，提供了一个可部署到实际生产环境的企业级解决方案，以简化大型语言模型的开发和部署。

通过Triton推理服务器，Megatron 530B能够在两个NVIDIA DGX系统上运行，将处理时间从CPU服务器上的1分钟以上缩短到半秒，令实时应用部署大型语言模型成为可能。

NVIDIA NeMo Megatron是在Megatron的基础上发展起来的开源项目。由NVIDIA研究人员主导，研究大型转换语言模型的高效训练。Megatron 530B是世界上最大的可定制语言模型。

NeMo Megatron框架使企业能够克服训练复杂自然语言处理模型的挑战。经过优化，可以在NVIDIA DGX SuperPOD的大规模加速计算基础设施上进行扩展。

NeMo Megatron通过数据处理库自动处理LLM训练的复杂性，这些数据处理库可以摄入、策划、组织和清理数据。利用先进的数据、张量和管道并行化技术，它能使大型语言模型的训练有效地分布在成千上万的GPU上。企业可以通过NeMo Megatron框架进一步训练它以服务新的领域和语言。

目前，使用NVIDIA DGX SuperPOD构建大型复杂语言模型的早期客户包括SiDi、京东探索研究院和VinBrai。

让医疗设备更智能

如今，AI在医疗行业正得到广泛应用，而如何医疗设备具备AI成为关键。许多医疗设备公司正在将AI和机器人技术融入其中，在机器人手术、移动CT扫描、支气管镜检中使用NVIDIA加速计算平台。

AI推理、语音AI、医疗AI，NVIDIA GTC 2021诸多AI计算产品更新

在NVIDIA GTC 2021上，NVIDIA Clara Holoscan正式发布，其是面向医疗健康行业的新计算平台，基于NVIDIA AGX Orin，能为可扩展、软件定义、端到端流媒体数据处理的医疗设备提供所需的计算基础设施。

作为一个可将医疗设备与边缘服务器无缝连接的端到端平台，NVIDIA Clara Holoscan可助力开发者创建AI微服务，用以在设备上运行低延迟串流应用，同时将更复杂的任务传至数据中心资源。

NVIDIA Clara Holoscan可以加速高速I/O、物理处理、图像处理、数据处理、渲染等工作，并支持持来自NVIDIA Inception AI和数据科学初创公司加速器计划成员的I/O卡，包括AJA视频系统、KAYA仪器、us4us。

作为可扩展的体系架构，Clara Holoscan能够从医疗设备扩展到NVIDIA认证边缘服务器，再到数据中心或云中的NVIDIA DGX系统。开发者可通过此平台，按需在其医疗设备中充分添加或减少计算和输入/输出功能，从而平衡延迟、成本、空间、性能和带宽的需求。

借助Clara Holoscan，开发者可以自定义应用，将其作为设备和服务器上的一系列模块化微服务运行。由于Clara Holoscan是由软件定义，医疗设备公司可以随着时间的推移持续不断地升级和改进其解决方案。

Clara Holoscan SDK通过加速库、AI模型和超声波、数字病理学、内窥镜检查等参考应用支持此项工作，以帮助开发者利用嵌入式和可扩展的混合云计算。有了端到端的部署平台，企业可以更容易地升级应用，为医学的日常实践带来新的研究突破。

AI推理、语音AI、医疗AI，NVIDIA GTC 2021诸多AI计算产品更新

AI推理、语音AI、医疗AI，NVIDIA GTC 2021诸多AI计算产品更新

Recommend

DDD模型探索的Whirl pool设计流程

Imagination 推出旗舰GPU IP ,拥有桌面级的光线追踪技术

开源的力量：越开放，越分享，越有活力

NVIDIA：不再是一家芯片公司，而是平台公司

Is UX Design a Good Career?

GTC 2021：Nvidia发布Quantum-2网络平台加速高性能计算

测试Live Writer 发布日志

从零开发一个模块化打包工具

词频词云工具

Flink企业级优化全面总结（3万字长文，15张图）

About Joyk