6

书生·浦语大模型介绍

 7 months ago
source link: https://xujinzh.github.io/2024/01/03/ai-internlm-intro/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

书生·浦语大模型介绍

发表于2024-01-03|更新于2024-01-04|researchdeep learning
字数总计:998|阅读时长:3分钟|阅读量:89

本篇简单介绍上海人工智能实验室的书生·浦语大模型。

书生·浦语大模型包含三大类:

  • 轻量级:InternLM-7B,社区低成本可用最佳模型规模
  • 中量级:InternLM-20B,商业场景可开发定制高精度较小模型规模
  • 重量级:InternLM-123B,通用大语言模型能力全面覆盖千亿模型规模

数据 书生·万卷

书生·万卷多达 2TB 数据,涵盖多种模态和任务。发布日期 2023 年 8 月 14 日。包含文本数据(50 亿个文档,数据量超 1TB),图像-文本数据集(超 2200 万个文件,数据量超 140GB),视频数据(超 1000 个文件,数据量超 900GB)。

OpenDataLab 提供了更多的开放数据。

预训练 InternLM-Train

并行训练,极致优化。速度达到 3600 tokens/sec/gpu。

支持从 8 卡到千卡训练,千卡训练效率达 92%;无缝接入 HuggingFace 等技术生态,支持各类轻量化技术。

微调 XTuner

XTuner 是一种高效的大模型微调框架:

  • 支持多种任务类型,如增量预训练,指令微调,工具类指令微调
  • 支持全量参数、LoRA、QLoRA 等低成本微调,覆盖各类 SFT 场景
  • 支持多种大语言模型的微调,如 InternLM, Llama, QWen, BaiChuan, ChatGLM,适配多种开源生态,支持加载 HuggingFace、ModelScope 模型或数据集
  • 支持自动优化加速,如 Flash Attention, DeepSpeed ZeRO, Pytorch FSDP,使得开发者无需关注复杂的现存优化与计算加速细节
  • 支持多种硬件,覆盖 NVIDIA 20 系以上所有显卡,最低只需 8GB 现存即可微调 7B 模型
  • 支持多种数据格式,如 Alpaca, MOSS, OpenAI, Guanacao 等等

增量续训和有监督微调:

  • 增量续训
    1. 使用场景:让基座模型学习到一些新知识,如垂直领域知识
    2. 训练数据:文章、数据、代码等
  • 有监督微调
    1. 使用场景:让模型学会理解和遵循各种指令,或者注入少量领域知识
    2. 训练数据:高质量的对话、问答数据

部署 LMDeploy

全链路部署,性能领先,每秒生成 2000+ tokens。提供大模型在 GPU 上部署的全流程解决方案,包括模型轻量化、推理和服务。

  • 接口:Python, gRPC, RESTful
  • 轻量化:4bit 权重、8bit k/v
  • 推理引擎:turbomind, pytorch
  • 服务:openai-server, gradio, triton inference server

评测 OpenCompass

全方位评测,性能可复现。80 套评测集,40 万道题目。

6 大维度:

  1. 学科:初中考试、中国高考、大学考试、语言能力考试、职业资格考试
  2. 语言:字词释义、成语习语、语义相似、指代消解、翻译
  3. 知识:知识问答、多语种知识问答
  4. 理解:阅读理解、内容分析、内容总结
  5. 推理:因果推理、常识推理、代码推理、数学推理
  6. 安全:偏见、有害性、公平性、隐私性、真实性、合法性

应用 Lagent

Lagent 是一种轻量级智能体框架:

  • 支持多种类型的智能体能力,如 ReAct, ReWoo, AutoGPT
  • 灵活支持多种大语言模型,如 OpenAI 的 GPT-3.5/4, 上海人工智能实验室的 InternLM, Hugging Face 的 Transformers, meta 的 Llama
  • 简单易拓展,支持丰富的工具,如 AI 工具(文生图、文生语音、图片描述),能力拓展(搜索,计算器,代码解释器), Rapid API(出行 API, 财经 API, 体育咨询 API)

多模态智能体工具箱 AgentLego

  • 丰富的工具集合,尤其是提供了大量视觉、多模态相关领域的前沿算法功能
  • 支持多个主流智能体系统,如 Lagent, LangChain, Transformers Agent 等
  • 灵活的多模态工具调用接口,可以轻松支持各类输入输出格式的工具函数
  • 一键式远程工具部署,轻松使用和调试大模型智能体

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK