模型服务化（未完成）

模型服务化（未完成）

7 months ago

source link: https://qiankunli.github.io/2024/01/23/trition.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

2024年01月23日

简介

模型推理服务化框架Triton保姆式教程（一）：快速入门Triton 是 Nvidia 发布的一个高性能推理服务框架，可以帮助开发人员高效轻松地在云端、数据中心或者边缘设备部署高性能推理服务。其中主要特征包括：

支持多种深度学习框架（Triton 称之为backend，tf、pytorch、FasterTransformer都有对应backend），Triton Server 可以提供 HTTP/gRPC 等多种服务协议。同时支持多种推理引擎后端，如：TensorFlow, TensorRT, PyTorch, ONNXRuntime 等。Server 采用 C++ 实现，并采用 C++ API调用推理计算引擎，保障了请求处理的性能表现。
模型并发执行
动态批处理(Dynamic batching)
有状态模型的序列批处理(Sequence batching)和隐式状态管理(implicit state management)
提供允许添加自定义后端和前/后置处理操作的后端 API
支持使用 Ensembling 或业务逻辑脚本 (BLS)进行模型流水线
HTTP/REST和GRPC推理协议是基于社区开发的KServe协议
支持使用 C API 和 Java API 允许 Triton 直接链接到您的应用程序，用于边缘端场景
支持查看 GPU 利用率、服务器吞吐量、服务器延迟等指标 PS：基本上对一个推理服务框架的需求都在这里了。

模型推理服务化框架Triton保姆式教程（二）：架构解析

深度学习部署神器——triton-inference-server入门教程指北未细读。

字节跳动模型大规模部署实战

PyTorch/TensorFlow 等框架相对已经解决了模型的训练/推理统一的问题，因此模型计算本身不存在训推一体的问题了。完整的服务通常还存在大量的预处理/后处理等业务逻辑，这类逻辑通常是把各种输入经过加工处理转变为 Tensor，再输入到模型，之后模型的输出 Tensor 再加工成目标格式。核心要解决的问题就是：预处理和后处理需要提供高性能训推一体的方案。

2023年10月19日，NVIDIA正式宣布TensorRT-LLM开放使用，TensorRT-LLM的主要特性有：

支持多GPU多节点推理
包含常见大模型的转换、部署示例（LLaMA系列、ChatGLM系列、GPT系列、Baichuan、BLOOM、OPT、Falcon等）
提供Python API支持新模型的构建和转换
支持Triton推理服务框架
支持多种NVIDIA架构：Volta, Turing, Ampere, Hopper 和Ada Lovelace
除了FastTransformer中针对transformer结构的优化项，新增了多种针对大模型的优化项，如In-flight Batching、Paged KV Cache for the Attention、INT4/INT8 Weight-Only Quantization、SmoothQuant、Multi-head Attention(MHA)、Multi-query Attention (MQA)、Group-query Attention(GQA)、RoPE等。大模型推理实践-1：基于TensorRT-LLM和Triton部署ChatGLM2-6B模型推理服务

Related Issues not found

Please contact @qiankunli to initialize the comment

Recommend

www.itran.cc 5 years ago
Cache

使用REST规范从未完成的5件事

原文请访问 5 Things You Have Never Done with a REST Specification 。大多数的前后端开发人员以前就已经...

新浪科技 tech.sina.com.cn 5 years ago
Cache

仍未完成的整改：药师帮商家冷链配送变普通快递

作者：何保实入驻商家涉违法销售违禁药品风波下，医药营销平台“药师帮”对于相关问题进行了修正。不过，根据本报的后续调查，问题仍然存在。作为中国知名的药品B2B第三方销售服务平台，11月27日，本报报道了“药师帮”入驻商家，涉违法销售毒性、终止

www.tmtpost.com 5 years ago
Cache

技术革命尚未完成，中长途出行的蓝海仍待开发

图片来源：视觉中国文｜智能相对论（ID：aixdlun），作者｜颜璇随着移动互联网流量红利的消失，用户下沉是互联网行业的必...

Github github.com 5 years ago
Cache

GitHub - liujingxing/RxHttp: OkHttp+RxJava 一条链发送请求，Activity/Fragment销毁...

README.md RxHttp RxHttp是基于OkHttp的二次封装，并于RxJava做到无缝衔接，一条链就能发送一个完整的请求。主要功能如下：支持Get、Post、Put、De...

www.solidot.org 5 years ago
Cache

报告称污染地块未完成修复即被出让

www.tuicool.com 5 years ago
Cache

并发陷阱 2: 未完成的工作

Jacob Walker 2019 年 4 月 18 日介绍在我的第一篇文章Goroutine 泄露中，我提到并发编程是一个很有用的工具，但是使用它也会带来某些非并发编程中不存在的陷阱。为了继续这个主题，我将介绍一个新的陷阱，这个陷阱...

blog.callmewhy.com 4 years ago
Cache

剑指 Offer 50 题 Leetcode 版本（未完成）

二维数组中的查找 240. Search a 2D Matrix II https://leetcode.com/problems/search-a-2d-matrix-ii/ Write an efficient algorithm that searches for a value in an m x n matrix. This matrix has the...

新浪科技 tech.sina.com.cn 4 years ago
Cache

投行Cowen称特斯拉今年交付35.6万辆汽车未完成目标

新浪科技讯北京时间12月30日晚间消息，据国外媒体报道，美国投资银行Cowen今日发布报告称，特斯拉今年将交付大约35.6万辆电动汽车，略低于公司之前预期的36万辆至40万辆。Cowen分析师杰弗里·奥斯本（JeffreyOsborne）在

新浪科技 tech.sina.com.cn 4 years ago
Cache

小米回应"50亿疫情贷款申请":未完成贷款为专款专用

相关新闻：小米、美团申请专项再贷款?央行初步调查:未列入名单央行：小米美团因参与防疫需要贷款银行会给予支持美团回应申请抗疫专项再贷款：此前传言多处不实新浪科技讯2月16日午间消息，针对“获得50亿疫情贷款”传闻一事，小米今日在官微发布声明称

www.solidot.org 4 years ago
Cache

模型服务化（未完成）