实至名归！讯飞星火被MIT科技评论评为“最聪明”的国产大模型-品玩

实至名归！讯飞星火被MIT科技评论评为“最聪明”的国产大模型

200多天前，影响世界的ChatGPT横空出世，短短2个月全球用户破亿，强行叩开了人工智能通往更高层级的大门。而在100多天前，来自中国的科大讯飞也发布了涵盖七大能力维度的通用认知大模型——星火，将大模型战局引入白热化阶段。8月15日，随着科大讯飞星火认知大模型V2.0升级发布，大模型战役也进入了“2.0”阶段。

8月17日，《MITTechnology Review（麻省理工科技评论）》中国（简称“MIT科技评论”）刊发了《寻找最聪明的大模型：国内主流大模型能力深度评测》，从专业学术角度对“讯飞星火（V2.0）”、“百度文心一言（V2.2.2）”、“商汤商量（V2.0）”、“阿里通义千问（V1.0.5）”四款中文大模型进行了评估，这也是学术界首次基于最新版中国大模型进行横向评测。结果显示，讯飞星火以总分81.5分摘夺桂冠，并与第二名拉开了6.3分的大幅差距。

MIT科技评论的评测方法务实客观，采取创建题库→筛选测试题→测试集应用→送代题库的流程，对Prompt（提示词）测试集进行构建。本次测试集一共涵盖600道题，题库来源既包括行业标准题库、专家设计题库、社区贡献的题库，还有来自现有研究与竞赛中被验证过的题库。从而尽可能拓展测试集题库的丰富性和多样性，以覆盖更多应用场景与行业领域。

早在星火1.5版本中，讯飞就对数学能力进行了升级，这项“特长”也在2.0版本中继续发扬。在对“求x2＜9”的求解不等式数学测试中，星火V2.0是唯一一个既给出正确答案，又给出详细解题过程的大模型，让人知其然，更知其所以然，凸显出数理逻辑的缜密。此项测试中，星火V2.0以77.75%的得分率明显高于平均得分率56%，成为“最会算数”的大模型。

星火V2.0也重点升级了代码能力。MIT科技评论让四款大模型用Python进行幂函数计算，继而考察它们的代码编程能力，结果讯飞星火V2.0以80%综合得分率再次明显高于71%平均值；并在编程“简答”单项得分中，以82%的得分率远超68.25%的平均值，展现了出类拔萃的代码生成与代码解释能力。

而在讯飞星火V2.0发布会上，讯飞董事长刘庆峰援引过认知智能全国重点实验室的测试结果（使用了代码实用场景测试集iflyCT-py）。星火V2.0“代码生成”得分率比ChatGPT高3%，“代码解释”得分率比ChatGPT低4%，两款大模型代码能力虽各有千秋，但星火部分能力赶超ChatGPT已成既定事实。MIT科技评论对其代码能力的测试，也有力支撑了这个观点。

除此之外，讯飞星火在“语言专项”、“逻辑思维”“综合知识”等维度均拿下第一，表现出“不偏科”的全能特长优势，最终被MIT科技评论评为“最聪明”的中国大模型。不过此次横评也略有“遗憾”，那就是受限于现阶段大模型多模态发展程度的不同，暂未将多模态能力纳入考察范围，这也使得星火V2.0在多模态能力的提升未作展现。但MIT科技评论在文末给出“预告”，将持续完善中国大模型评测体系，逐步引入对多模态能力的考察，或许我们在“横评2.0版本”中就能看到中国大模型精彩的多模态交锋。

从行业观察者角度看，MIT科技评论此次对中国大模型的横评，足以彰显中国大模型在AIGC领域的重要性，这不仅是讯飞星火大模型的个体胜利，也是中国大模型军团的共同荣誉。通用认知大模型正以星火燎原的速度，在全世界四处蔓延，或将对人类社会产生巨大而深远的影响。

Recommend

Amazon Adds a New Fee For Sellers Who Ship Their Own Packages - Slashdot

Whales Are Selling Tether (USDT) And USD Coin (USDC) to Buy Everlodge (ELDG) Tok...

安装GRUB-customizer

windows合并多个系统安装镜像

如何在bash脚本命令中发出PC蜂鸣声

树莓派扩展根分区

重置 Windows 的窗口大小和位置

dd命令高级用法

golang文件处理常用函数

开放麒麟1.0安装homebrew

About Joyk