悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆-品玩

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆

发布于 6小时前

为推动大模型在产业落地和技术创新，智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果，打造“大模型进化流水线”，持续迭代、持续开源开放。

悟道·天鹰（Aquila）开源商用许可语言大模型系列

悟道·天鹰（Aquila）语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。

悟道·天鹰（Aquila）语言大模型在中英文高质量语料基础上从 0 开始训练，通过数据质量的控制、多种训练的优化方法，实现在更小的数据集、更短的训练时间，获得比其它开源模型更优的性能。系列模型包括 Aquila基础模型（7B、33B），AquilaChat对话模型（7B、33B）以及 AquilaCode-7B “文本-代码”生成模型，后续将持续更新迭代并开源更新版本。

Aquila基础模型（7B、33B）在技术上继承了 GPT-3、LLaMA 等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer，升级了 BMTrain 并行训练方法，实现了比 Magtron+DeepSpeed ZeRO-2 将近８倍的训练效率。

AquilaChat 对话模型（7B、33B）支持流畅的文本对话及多种语言类生成任务，通过定义可扩展的特殊指令规范，实现 AquilaChat对其它模型和工具的调用，且易于扩展。例如，调用智源开源的 AltDiffusion 多语言文图生成模型，实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型，轻松实现对人脸图像的多步可控编辑。

AquilaChat 训练过程中，实现了模型能力与指令微调数据的循环迭代，包括数据集的高效筛选与优化，充分挖掘基础模型的潜力。

article-body

图注：文本-代码生成

天秤（FlagEval）大模型评测体系及开放平台

天秤（FlagEval）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具，并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象，包括自然语言处理（NLP）、计算机视觉（CV）、语音（Audio）及多模态（Multimodal）等四大评测场景和丰富的下游任务。

总的来说，智源此次发布的 2 大重磅成果仅仅是一个新的起点：

一方面，悟道 · 天鹰 Aquila 语言大模型将不断完善训练数据、优化训练方法、提升模型性能，在更优秀的基础模型基座上，培育枝繁叶茂的“模型树”，持续开源开放。

另一方面，天秤 FlagEval 大模型评测体系及开放平台将继续拓展“大模型认知能力”框架，集成丰富的数据集与评测指标，并探索与心理学、教育学、伦理学等社会学科的交叉研究，以期更加科学、全面地评价语言大模型。

「模型 + 评测」双轮驱动，加速大模型技术创新与产业落地。欢迎学界、产业界同仁提供建议。

Recommend

GCC Steering Committee Announces a Code of Conduct - Slashdot

1499元可闭眼入华为MatePad SE 10.4大内存版发布

Hitting 'reset' on the US recession countdown

Xbox boss hints Call of Duty may not look amazing on Nintendo Switch

IBM to acquire FinOps leader Apptio for $4.6 billion

Did Apple accidentally make Mac Pro unnecessary?

GitHub - langchain4j/langchain4j

Apple's fall roadmap reportedly revealed, including a 30-inch iMac and a M3 MacB...

Get your griddle on anywhere with Royal Gourmet's Portable Grill at $50 (2023 lo...

详解数据库中的索引和视图 - 华为云开发者联盟

About Joyk