Meta AI 研究人员提出长语境 LLM：超越 GPT-3.5-Turbo-16k 的性能

11 months ago

source link: https://www.8btc.com/article/6834774
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

2023-10-08 03:32

Meta AI 研究人员提出长语境 LLM：超越 GPT-3.5-Turbo-16k 的性能

据 MarkTechPost 10 月 7 日报道，Meta AI 研究人员提出了一种构建长语境 LLM 的方法，这种方法优于所有现有的开源模型。该方法围绕 LLAMA2 检查点进行持续的预训练，并利用额外的 4000 亿个 token 形成广泛的训练序列。这些序列旨在捕捉长语境理解的本质。此外，这项工作提供了一系列模型变体，包括使用 32,768 个 token 序列训练的较小的 7B/13B 模型和使用 16,384 个 token 序列训练的较大的 34B/70B 模型。

与研究基准上的 LLAMA 2 相比，该方法在长语境任务中取得了显著改进，而在标准短语境任务中则略有提高。这些改进在编码、数学问题解决和知识相关任务中尤为明显。此外，该团队还探索了一种简单而经济高效的程序，用于在没有人类标注数据的情况下对持续预训练的长模型进行指令微调。结果是，在一系列长语境基准测试中，聊天模型的性能超过了 gpt-3.5-turbo-16k 模型。

Recommend

Meta AI 研究人员提出长语境 LLM：超越 GPT-3.5-Turbo-16k 的性能

Meta AI 研究人员提出长语境 LLM：超越 GPT-3.5-Turbo-16k 的性能

Recommend

研究人员开源端到端多模态大模型 LLaVA-1.5，可与 GPT-4V 形成正面竞争

SPARCs in Space: The Cobham UT700 Leon3FT Processor

如何看待数据库的性能

Flagella - Structure, Types and Functions

达音科隼 Ultra 体验，千元单动圈耳机的准则_原创_新浪众测

9月中国消费行业投融资观察：消费企业太惨了，7家终止IPO，13家暂停

深入了解快速排序：原理、性能分析与 Java 实现

es针对nested类型数据无法进行过滤查询的问题记录 - blayn

消息称一加智能手表OnePlus Watch 2明年发布采用圆形设计

中国移动王晓云：AI 赋能网络需围绕数据、模型、架构和实用四个方面重点攻关

About Joyk