4

王小川旗下百川智能发布Baichuan-13B大模型 130亿参数开源可商用

 1 year ago
source link: https://www.chinaz.com/2023/0711/1542141.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

王小川旗下百川智能发布Baichuan-13B大模型 130亿参数开源可商用

2023-07-11 13:33 · 稿源:站长之家

站长之家(ChinaZ.com)7月11日 消息:继Baichuan-7B之后,近日,王小川旗下百川智能再次发布Baichuan-13B大模型。

据介绍,Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含130亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。

微信截图_20230711133555.png

Baichuan-13B 有如下几个特点:

  1. 更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到130亿,并且在高质量的语料上训练了1.4万亿 tokens,超过 LLaMA-13B40%,是当前开源13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为4096。

  2. 同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。

  3. 更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8和 int4的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia3090这样的消费级显卡上。

  4. 开源免费可商用:Baichuan-13B 不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。

【HuggingFace】

预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base

对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat

【GitHub】

https://githuB.com/Baichuan-inc/Baichuan-13B

【Model Scope】

预训练模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Base/

对话模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/

举报


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK