3

实至名归!讯飞星火被MIT科技评论评为“最聪明”的国产大模型-品玩

 1 year ago
source link: https://www.pingwest.com/a/287095
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

实至名归!讯飞星火被MIT科技评论评为“最聪明”的国产大模型-品玩

top-ad_1db2933.png

业界动态

实至名归!讯飞星火被MIT科技评论评为“最聪明”的国产大模型

200多天前,影响世界的ChatGPT横空出世,短短2个月全球用户破亿,强行叩开了人工智能通往更高层级的大门。而在100多天前,来自中国的科大讯飞也发布了涵盖七大能力维度的通用认知大模型——星火,将大模型战局引入白热化阶段。8月15日,随着科大讯飞星火认知大模型V2.0升级发布,大模型战役也进入了“2.0”阶段。

article-body

8月17日,《MITTechnology Review(麻省理工科技评论)》中国(简称“MIT科技评论”)刊发了《寻找最聪明的大模型:国内主流大模型能力深度评测》,从专业学术角度对“讯飞星火(V2.0)”、“百度文心一言(V2.2.2)”、“商汤商量(V2.0)”、“阿里通义千问(V1.0.5)”四款中文大模型进行了评估,这也是学术界首次基于最新版中国大模型进行横向评测。结果显示,讯飞星火以总分81.5分摘夺桂冠,并与第二名拉开了6.3分的大幅差距。

MIT科技评论的评测方法务实客观,采取创建题库→筛选测试题→测试集应用→送代题库的流程,对Prompt(提示词)测试集进行构建。本次测试集一共涵盖600道题,题库来源既包括行业标准题库、专家设计题库、社区贡献的题库,还有来自现有研究与竞赛中被验证过的题库。从而尽可能拓展测试集题库的丰富性和多样性,以覆盖更多应用场景与行业领域。

article-body

早在星火1.5版本中,讯飞就对数学能力进行了升级,这项“特长”也在2.0版本中继续发扬。在对“求x2<9”的求解不等式数学测试中,星火V2.0是唯一一个既给出正确答案,又给出详细解题过程的大模型,让人知其然,更知其所以然,凸显出数理逻辑的缜密。此项测试中,星火V2.0以77.75%的得分率明显高于平均得分率56%,成为“最会算数”的大模型。

article-body

星火V2.0也重点升级了代码能力。MIT科技评论让四款大模型用Python进行幂函数计算,继而考察它们的代码编程能力,结果讯飞星火V2.0以80%综合得分率再次明显高于71%平均值;并在编程“简答”单项得分中,以82%的得分率远超68.25%的平均值,展现了出类拔萃的代码生成与代码解释能力。

而在讯飞星火V2.0发布会上,讯飞董事长刘庆峰援引过认知智能全国重点实验室的测试结果(使用了代码实用场景测试集iflyCT-py)。星火V2.0“代码生成”得分率比ChatGPT高3%,“代码解释”得分率比ChatGPT低4%,两款大模型代码能力虽各有千秋,但星火部分能力赶超ChatGPT已成既定事实。MIT科技评论对其代码能力的测试,也有力支撑了这个观点。

article-body

除此之外,讯飞星火在“语言专项”、“逻辑思维”“综合知识”等维度均拿下第一,表现出“不偏科”的全能特长优势,最终被MIT科技评论评为“最聪明”的中国大模型。不过此次横评也略有“遗憾”,那就是受限于现阶段大模型多模态发展程度的不同,暂未将多模态能力纳入考察范围,这也使得星火V2.0在多模态能力的提升未作展现。但MIT科技评论在文末给出“预告”,将持续完善中国大模型评测体系,逐步引入对多模态能力的考察,或许我们在“横评2.0版本”中就能看到中国大模型精彩的多模态交锋。

从行业观察者角度看,MIT科技评论此次对中国大模型的横评,足以彰显中国大模型在AIGC领域的重要性,这不仅是讯飞星火大模型的个体胜利,也是中国大模型军团的共同荣誉。通用认知大模型正以星火燎原的速度,在全世界四处蔓延,或将对人类社会产生巨大而深远的影响。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK