3

这家大模型豪言半年内超越ChatGPT(内附测评)

 1 year ago
source link: https://awtmt.com/articles/3688105
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

这家大模型豪言半年内超越ChatGPT(内附测评)

于惠如 发表于 2023年05月06日 13:36
摘要:6月9日,突破开放性问答,如实时问答;多轮对话能力再次升级;数学能离再上台阶。8月15日,突破代码能力;多模态交互能力正式开放给客户。10月24日,在通用大模型领域对标ChatGPT,其中中文能力超越后者,英文能力与后者相当。

本文来自全天候科技,阅读更多请登陆www.awtmt.com或华尔街见闻APP。

作者|于惠如 编辑|罗丽娟

“认知大模型成为通用人工智能的曙光,科大讯飞有信心实现‘智能涌现’。”

5月6日,科大讯飞星火认知大模型揭开神秘面纱。发布会上,科大讯飞董事长刘庆峰、科大讯飞研究院院长刘聪在现场实测了讯飞星火在七大维度上的核心能力,包括多风格多任务长文本生成、语言理解、泛领域开放式知识问答、情境式思维链逻辑推理、多题型可解析数学、多功能多语言代码,以及多模态输入和表达等。

c8659b70-c8c5-4271-8c84-7dd056d82270.jpeg

讯飞星火认知大模型发布的同时,科大讯飞也发布了基于该大模型的教育、办公、汽车和数字员工等多个领域相关产品。

星火认知大模型始于2022年12月。彼时,科大讯飞启动“1+N”大模型技术攻关,其中,“1”代表通用认知智能大模型算法研发及高效训练方案底座平台,“N”代表大模型在教育、办公、汽车、人机交互等各个领域的落地。

“当前,在文本生成、知识问答、数学能力三大能力上,讯飞星火认知大模型已超ChatGPT。”刘庆峰在发布会上表示。

与此同时,刘庆峰还给出了讯飞星火的迭代时间表及每阶段目标:第一阶段,在6月9日,突破开放性问答,如实时问答;多轮对话能力再次升级;数学能力再上台阶。第二阶段,在8月15日,突破代码能力;多模态交互能力正式开放给客户。第三阶段:10月24日,在通用大模型领域对标ChatGPT,其中中文能力超越后者,英文能力与后者相当。

此外,据刘庆峰透露,科大讯飞还将在今年推出医疗行业大模型。

发布会现场,刘庆峰用“最强”、“已超ChatGPT”、“遥遥领先”等词形容讯飞星火认知大模型的部分能力,但他同时也承认讯飞星火仍然存在一些问题。比如:对新知识难以及时更新;事实类问答容易出现“张冠李戴”;史实、传统典籍等容易“编造情节”等。

77acbde0-cb1b-48dc-9be3-52970ac92287.jpeg

目前,星火认知大模型已对外开放测试。

现场实测七大核心能力

与百度文心一言、阿里通议千问不同,讯飞星火没有在发布会上使用提前录好的demo版本,而是在现场实测了其七大核心能力。

从现场演示效果来看,星火认知大模型基本能够流畅完成交付的各项任务。另外,讯飞星火体现了科大讯飞的一贯强项——语音能力,它可以通过语音转文字进行问答,这也是其优势所在。

a3ef9b1e-5f0f-48ff-a97e-d55aaf71d73c.jpeg

演示中,刘聪让星火认知大模型写邮件、做方案、写新闻通稿、生成英文宣传文案等文本生成功能,讯飞星火均流畅地完成了任务。

b51f881a-4bc0-4fe0-a841-81bb6e35b6d8.png

现场演示的讯飞星火的语言理解能力也在线,它理解了特定的句子和场景含义,随着问题的变化,也调整了自己的答案

a44021e9-3d62-4ae7-923d-3a584b0073f6.png

在数学能力中,除了常规计算、几何、情景应用等,讯飞星火解答了复杂的计算题答案。在刘庆峰看来,数理能力一定程度代表了一个大模型的聪明程度。“讯飞星火大模型不仅在国内系统中遥遥领先,也超过了ChatGPT。”

5dd7cd79-5ed5-47de-ae26-3cbd2d9fbdd6.png

此外,刘聪还展示了大模型面向泛领域开放式知识问答能力、逻辑推理能力与代码能力。在多模态能力方面,星火大模型能够根据关键词句生成语音、图片、视频等素材,并可生成虚拟人进行视频展示。

不过,据官方介绍,讯飞星火的多模态能力目前还在测试中,最迟8月会提供给VIP客户使用。

打通“大模型+产品”闭环生态

讯飞星火认知大模型发布的当天,科大讯飞还同时发布了基于该大模型的教育、办公、汽车和数字员工等多个领域相关产品。

以汽车为例,讯飞火星认知大模型与智慧座舱的结合,可以实现车内跨业务、跨场景人车自由交流。基于大模型的智能座舱将更自由、拟人化、更懂汽车、更开放。

在学习机中,新增talktalk功能,实现中英文对话,存量学习机可更新迭代。办公本和录音笔中,新增语篇规整、要点总结、一键成稿,存量产品也可更新使用。

WechatIMG125

基于自然语言生成业务流程和RPA,在“大模型+数字员工”应用场景,可以帮助企业员工完成大量重复性工作。

现场以公司招聘事项为例,输入指令后,系统即可自动按照事先设计的RPA脚本,操作计算机中的相应软件,实现业务流程的自动化操作并输出结果,并进行数据分析。

刘庆峰透露,上述领域外,讯飞星火认知大模型还将赋能包括医疗、城市、政法、工业等在内的更多行业,满足更多专业领域的需求,向更广阔的产业领域延伸。

据了解,首批来自36个行业的3000余家企业开发者将接入星火大模型。

星火大模型“成色”究竟如何?全天候科技亲测了多个场景下的问题,不妨一起来看一看它回答的如何。

我们先让星火大模型介绍了自己和竞品。

851548c8-7160-4ccb-a336-08410d732c48.png

很明显,简单介绍没有问题,但当主语更复杂,需要理解时,它的理解能力“不在线”。

我们又让讯飞星火展现了文字创作能力——根据要求写一首诗。

62cc0683-7b37-41b3-8a7b-776d7b8d6e89.png

这首诗基本涵盖了端午节的要素:糯米、龙舟、艾草,还拓展了龙舟、艾草等元素的使用场景,也表达了对生活的美好祝愿。但整体而言,与其说是一首诗,它更像是一首缺少押韵、对仗、与美感的顺口溜。

随后,全天候科技针对一些时下正流行的网络“热梗”进行提问,看其是否有紧跟热点的能力。

31c3d63c-e20d-4c56-aa5d-08d651569181.png

然而,对于“特种兵”式旅游这个网络热梗,讯飞星火知道一点,但知道的不多。不过,它的“态度”很好,当我们提出错误,它能认识到自己的错误,并且道歉。

在测试过程中,全天候科技发现,讯飞星火的部分语料库并未更新至最新事件,对一些实事仍然给出错误答案。比如,当我们问“北京冬奥会自由式滑雪女子U型场地冠军是谁”时,它给出的答案是:法国选手特兰斯·勒贝克 (TraceLeBerque)。不过,当我们给出正确答案后,它又立马承认自己的错误并道歉。

aedfd5e8-6541-4344-98fe-6138eacceb2f.png

在数学推理能力方面,我们请讯飞星火做了几道数学题。对于第一个题,讯飞星火不仅给出了正确答案,还做了延伸。而对于第二个题,它给出了详细的解题步骤及正确答案。可以看出,它的简单数学推理能力过关。

b6415b36-bb82-4451-8266-d06742a4b3ea.png
5bcacc76-3d58-400e-9881-e08d22aa0c17.png

在多模态生成方面,讯飞星火的表现也不够完美。

此前已经推出的百度文心一言、阿里通义千问等大模型均具备图片生成的能力。当我们输入“科大讯飞要开大模型发布会,请生成一张海报”时, 讯飞星火认知大模型告诉我们自己无法生成图片,但是它还是给我们提供了一些信息和建议。

fec7aa33-784b-4908-b1ac-56c10c2b0e2f.png

除了文字,讯飞星火具备在答案中融入emoji表情包能力,当我们让它用emoji表情包介绍大模型发布会时,它给出了以下答案。

033b2bf9-a378-4d6c-b4e8-a13b873e1777.png

最后,讯飞火星究竟如何看待自己的能力?

5abe6c7e-1f85-40e2-aa59-2d14c2a2f031.jpeg

我们抛出了刘庆峰对其已“超越ChatGPT”的夸赞,并让它证明自己。它没有承认,并已学会了“打太极”。

46dca52f-5839-4c71-8718-5ec0ec76a7b8.png
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK