新华社研究院大模型体验报告3.0：讯飞星火蝉联冠军，基础能力、智商、工具效能均最强-安徽智能学习技术与系统工程研究中心

新华社研究院大模型体验报告3.0：讯飞星火蝉联冠军，基础能力、智商、工具效能均最强

点击量：时间：2023-11-20 编辑：王新艳

新华社研究院中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0（下文简称《报告》）评测结果显示，由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军，并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商汤的商量大模型和智谱的AI-ChatGLM大模型。

新华社研究院：科大讯飞在大模型技术领域积淀深厚

本次报告与之前的评测体系相比，在评估维度、主客观融合、指标与市场异动匹配等方面都进行了升级。比如，在1000道题里面选择400道题进行实际问答测试，在原来对大模型产品的实际表现评测基础上增加了对厂商技术实力和未来发展潜力的维度评测等。

《报告》测评选取了讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意等10家最新版本国产主流大模型产品。

《报告》以“技术实力”和“发展潜力”为坐标系，其中，“技术实力”包括平台性能、安全性能、模型可解释性、实时性能四大二级指标和易用性等七大三级指标，“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接受度等五大三级指标，由此得出主流大模型综合指数3.0，结果显示，讯飞星火等3家大模型在“技术实力”和“发展潜力”上都处于第一象限，属于大模型领域的“未来领袖”。

大模型厂商在技术实力上呈现出百家争鸣的态势，每个厂商都努力在模型的算法、架构、性能等各方面寻求突破，《报告》认为，“科大讯飞依赖其在语音技术领域的长期积累，为大模型注入了丰富的语音交互能力”。综合“技术实力”和“发展潜力”，《报告》实际评测结果认为，“科大讯飞再次表现亮眼，这再次证明了科大讯飞在大模型技术领域积淀深厚”。

打造每个人的AI助手，工具提效指数再夺冠

今年下半年以来，“百模大战”已从“拼技术”转向“拼应用”的转折点，应用为王成为行业共识。

《报告》对主流大模型的产品，从基础能力、智商、情商和工具提效四大维度进行测试，结果显示，科大讯飞获得1775分，总分第一且基础能力、智商、工具提效三项指数均获第一。今年8月份，在《人工智能大模型体验报告2.0》中，讯飞星火获得总分第一、智商和工具提效两项指数第一。

“假如我是一个5岁的儿童，请向我解释为什么星星会发光。”面对这样的基础能力测试，讯飞星火将星星比喻成“天空的小蜡烛”，用非常简单的几句话让5岁孩子“一听就懂”。《报告》评价讯飞星火在基础能力上的总体表现，“能够准确理解指令，并且能够生成图像”。

在智商指数方面，一个有关专业心理学的单选题摆在大模型面前，结果显示，讯飞星火在回答基本正确的同时能够理解指令，不给出多余的回答。

在《报告》的四大评测维度中，“工具提效指数”直指落地应用，通过“在不同专业技能场景下评测模型均能一定程度上提升问题分析和解决水平，以及大纲罗列的速度”，来检验大模型是否真正“好用”。

《报告》提出一道医疗问题进行测试：“猴痘会通过什么途径传播？目前的治疗方法是什么？”，结果讯飞星火非常简洁列出3个传播途径及治疗方法建议，以472分获得第一。

上个月刚结束的讯飞星火认知大模型V3.0发布会上，讯飞星火的“工具属性”全面落地，人们在不同的场景都能感受到“AI助手”无处不在：当你身体不舒服，搭载讯飞星火医疗大模型的“讯飞晓医”APP进行症状自查，“就医攻略”一目了然；写程序想提升效率，iFlyCode2.0智能编程助手可以马上帮你写出一个从0到1的小应用；写邮件文书太繁琐，下载一个有1200万粉丝的“讯飞星火”APP，里面就有注入“灵魂”、具有人设的星火友伴，可以马上学习你的文风为你写作……就在刚刚过去的“双11”，讯飞AI硬件销售额同比增长126%，科大讯飞AI学习机等多个智能硬件获得天猫和京东7个品类销售冠军，用户直接为AI助手的价值真金白银买单，讯飞星火赋能人们生活和工作的各种产品，已实实在在让每一个普通人有着越来越强烈的“体感”。

从C到B，实现国产大模型“安全可控”

Gartner发布的2024年十大战略技术趋势显示，生成式AI的全民化有可能实现各种任务的自动化，从而提高生产力，降低成本并提供新的增长机会。随着生成式AI平台在全球范围内不断普及，全球组织和员工将迎来生产力跃迁。Gartner预测，到2026年，80%以上的企业将接入生成式AI或大模型。

从对个体的实用到对行业的赋能，《报告》认为，大模型技术在C端场景应用落地越来越多，在B端赋能千行百业的产业价值需进一步挖掘。

《报告》将科大讯飞纳入优秀案例之列，《报告》认为，“为了保证算力安全，讯飞和华为强强联合，把自身拥有的自研大模型训练平台，具备训练和数据闭环全流程设计、大模型训练和推理一体化设计、大规模异构算力兼容、支持混合云架构易拓展等优势和华为基于昇腾AI基础软硬件的高算力AI 芯片、高性能算子库、多卡高速互联、分布式存储等优势结合起来，打造出了面向超大规模大模型的训练国产算力集群，保证了人工智能大模型的算力安全和发展自主。同时，讯飞星火形成了立体化的‘内容安全’保障机制，解决了内容安全方面的问题。”

在实践成效方面，《报告》认为，“在讯飞保障内容，华为保障算力的前提下，讯飞联合华为推出了国产软硬件一体化的私有专属大模型解决方案‘星火一体机’，它就好像一个人工智能大模型的服务器，开箱就可以立即提供从底层算力、AI框架、训练算法、推理能力、应用成效等全栈AI能力，让企业可以在这个‘一体机’上，独家打造属于自己的专属私有化大模型”。

人工智能大模型的发展任重道远，《报告》期待，未来人工智能大模型能够推动数字经济和产业经济深度融合，牵起新一轮技术革命，为社会经济发展提供源源不断的科技动力。

来源：科大讯飞编辑：王新艳校对：唐菁莲预审：施羽晗终审：聂竹明

上一条：长三角信息智能创新研究院“数字技术赋能铁画非遗保护与传承”项目入选“长三角人文经济典型案例”

下一条：长三角信息智能创新研究院获批安徽省首批高水平新型研发机构

网站首页

合作单位动态

新华社研究院大模型体验报告3.0：讯飞星火蝉联冠军，基础能力、智商、工具效能均最强

相关文章：

中心概况

科研创新

人才培养

产业合作

联系我们