MIT科技评论:讯飞星火被评为中国“最聪明”的大模型
- 来源: 财经网 2023-08-17 19:56:54
国内"千模大战"下,谁是最聪明的大模型?《麻省理工科技评论》中国最新发布的大模型评测报告给出了答案。
(资料图)
报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中表现突出,以81.5 分(百分制计)的成绩在本次评测中登顶,荣获"最聪明"的国产大模型称号。
图:大模型评测综合得分率
图:4个大模型各项能力雷达图
《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,力图评出"最聪明"的国产大模型。选取了"讯飞星火"、"百度文心一言"、"商汤商量"、"阿里通义千问"作为中文大模型平台的代表,展开系统、科学的评测。
本次评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰富性和多样性做了优化。
在题目类型上,为了兼顾定量、定性的评价与测试,设置了"单选"、"多选"、"填空"、"简答"4个题型,分别有 145 道、138 道、136 道和 181 道。大模型评测体系使用盲评方式,客观评估国产大模型的聪明程度。
作为"最聪明"的大模型的基础能力,语言专项评测包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等 61 个二级分类,题型则以简答为主。结果显示,讯飞星火 85.73%的得分率排名第一,明显高于平均值。
图:语言专项评测得分率
数学专项评测,是"最聪明"大模型必不可少的评测维度。本次评测包含代数、几何、解方程、复杂数学、统计学等 9 个二级分类,以选择题为主。
其中,讯飞星火以77.75% 的得分率名列第一,远高于平均得分率56%,其他平台得分率基本相当。报告称,在大模型普遍"数学不好"的情况下,讯飞星火这一成绩颇为难得,其在数学专项上的领先同样体现在二级分类的评分结果上,在77.8%的二级分类中得分率第一,远超其他平台,初步判断其擅长几何与情景应用。
图:数学专项评测得分率
作为体现大模型"聪明程度"不可或缺的"硬核"部分,理科综合评测包含表格问答、化学、生物、物理、医学 5 个二级分类,题型上以单选和简答为主。
评测结果中,讯飞星火78.50% 的得分率排名第一。另外,讯飞星火在理科综合大类下 80% 的二级分类评测中得分率为第一,化学与生物较为突出。
图:理科综合评测得分率
逻辑思维也是"最聪明"大模型的重要体现,本次逻辑思维评测在逻辑推理、思维链等方面设计了较多的题目,包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等19 个二级分类,题型上相对平均,其中填空题最多,多选题最少。
在逻辑思维题目中,讯飞星火81.25%的得分率名列第一,明显高于72.6% 的平均值。此外,讯飞星火在逻辑思维63.2% 的二级分类问题上得分率第一。逻辑思维对于大模型真正理解物理世界相当重要。
图:逻辑思维评测得分率
编程能力是大模型比较高阶的能力,本次的编程能力评测包含ASCII、ASCII码识别、Python、代码、代码修正、计算机 6 个二级分类,其中 Python 主要以简答形式评估大模型的代码生成能力和正确率,其他则以客观题的形式考察。
结果显示,讯飞星火80% 的得分率明显高于 71%的平均值,其他平台得分率基本相当。值得一提的是,在许多人关心的生成代码的简答题单项上,讯飞星火的得分率高达 82%,远高于其他平台,表现颇为亮眼。
图:编程能力评测综合得分率
作为比较难的评测维度,综合知识对大模型的"聪明"程度要求也很高,涉及的题目较杂,包含百科问答、常识、科学知识、事实问答、工作技巧、谜语等 13 个二级分类,题型以多选为主。
在综合知识评测上,讯飞星火80.61% 的得分率排名第一,在 84.6% 的二级分类上得分率第一,初步显示出在百科问答和历史人文上的"过人之处"。
图:综合知识评测得分率
报告指出,在本轮大模型评测中,讯飞星火以81.5 分的成绩拔得头筹,成为"最聪明"的国产大模型。
讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这6 个一级大类中得分率排名第一,在此次评测中表现十分全面,尤其是在代码生成、数学能力、理科与逻辑等方面优势明显,是本次"最聪明的理科生"。
值得一提的是,从题型角度来看,主观简答题中讯飞星火凭借83.98% 的得分率位居第一;而在客观题上,讯飞星火以 75.7% 的得分率排名第一,在主客观体型中均有良好表现。
此外,就在8月12日,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火V1.5以总分1013分位列本次国产主流大模型测评榜首位,在四大评测维度中的智商指数和工具提效指数两个维度获得第一,《报告》认为讯飞星火"在工作提效方面优势明显"。
在刚刚过去的8月15日,讯飞星火认知大模型V2.0如期发布,进一步突破代码能力和多模态能力。技术获得重大突破的同时,搭载讯飞星火V2.0核心能力的应用和产品也越来越丰富:既有辅助程序员高效工作的智能编码助手iFlyCode1.0、能够进行视频创作的讯飞智作2.0、能够便捷搭建轻应用的教育数字基座应用开发助手,还有帮助教师设计教学活动、一键生成课件的星火教师助手、面向英语学习者口语练习的星火语伴2.0,讯飞AI学习机也升级AI 1对1智能编程助手和AI 1对1创意绘画伙伴。此外,科大讯飞还和华为联合发布星火一体机,让每一家企业都有机会构建专属大模型。
标签:
【免责声明】
1、凡本网注明出处非(巨潮财经网)的作品,均转载于自其它媒体,并不代表本网赞同其观点和对其真实性负责,目的在于信息的传递,本网不承担稿件侵权行为的连带责任,如对稿件有质疑请与本网客服联系。
2、刊发此文目的在于传递更多信息,文章内容仅供参考,不构成投资建议,投资者据此操作,风险自担。
3、如涉及作品内容、版权等其它问题,请在15日内联系本网客服。
-
MIT科技评论:讯飞星火被评为中国“最聪明”的大模型
国内 "千模大战 "下,谁是最聪明的大模型?《麻省理工科技评论》中国最
2023-08-17 19:56:54
-
B站发布2023年第二季度财报
财经网科技8月17日讯,哔哩哔哩公布了截至2023年6月30日的第二季度未经
2023-08-17 18:54:32
-
亚辉龙:上半年总营收10.75亿元 归母净利润1.42亿元
财经网讯8月17日,亚辉龙(688575 SH)公布2023年半年报,报告期实现营业
2023-08-17 19:02:47
-
小米“卷入”大模型,手机厂商虽迟但到
8月14日晚,雷军2023年度演讲如期而至。这是雷军的第4次年度演讲,主要
2023-08-17 17:57:27
-
远程新能源商用车7月销量超7000辆
财经网汽车8月17日讯,远程新能源商用车官微消息,7月,远程新能源商用
2023-08-17 17:53:54
-
MIT科技评论:讯飞星火被评为中国“最聪明”的大模型
国内 "千模大战 "下,谁是最聪明的大模型?《麻省理工科技评论》中国最
2023-08-17 19:56:54
-
深蓝汽车与华为正式签订合作框架协议
财经网汽车8月17日讯,深蓝汽车发布公告称,与华为在深圳华为全球总部
2023-08-17 19:55:23
-
龙虎榜 | 多家游资集体出逃首创证券,佛山系1.05亿小赚盟固利离场
今日龙虎榜净买入额榜前三为新时达、云赛智联、南方精工
2023-08-17 19:25:42
-
国米 巴萨 欧冠小组赛_国米 巴萨
1、1、巴萨的优势明显弱势也明显冻结哈维梅西巴萨就没戏了上赛季切尔西
2023-08-17 19:15:08
-
哔哩哔哩2023年Q2财报:毛利同比增长66%,调整后净亏损同比大幅收窄51%
北京时间8月17日(美东时间8月17日),哔哩哔哩(NASDAQ:BILI,HKEX:96
2023-08-17 19:02:05
-
B站发布2023年第二季度财报
财经网科技8月17日讯,哔哩哔哩公布了截至2023年6月30日的第二季度未经
2023-08-17 18:54:32
-
亚辉龙:上半年总营收10.75亿元 归母净利润1.42亿元
财经网讯8月17日,亚辉龙(688575 SH)公布2023年半年报,报告期实现营业
2023-08-17 19:02:47
-
联诚精密(002921.SZ):上半年净亏损174.68万元
格隆汇8月17日丨联诚精密(002921)(002921 SZ)公布2023年半年度报告,报
2023-08-17 18:22:59
-
爱丽家居:2023上半年净亏85.91万元丨中报
财经网讯8月17日,爱丽家居发布2023年半年度报告。报告期内,该公司实
2023-08-17 17:51:34
-
TrendForce:今年上半年全球新能源车总销量546.2万辆 同比增长33.6%
财经网汽车8月17日讯咨询机构TrendForce发布新能源车销量分析报告,202
2023-08-17 18:01:54
-
小米“卷入”大模型,手机厂商虽迟但到
8月14日晚,雷军2023年度演讲如期而至。这是雷军的第4次年度演讲,主要
2023-08-17 17:57:27
-
远程新能源商用车7月销量超7000辆
财经网汽车8月17日讯,远程新能源商用车官微消息,7月,远程新能源商用
2023-08-17 17:53:54
-
央行:适应房地产市场供求关系发生重大变化的新形势 适时调整优化房地产政策
财经网讯8月17日,央行发布2023年第二季度中国货币政策执行报告。报告
2023-08-17 17:53:26
-
受ET5T和全新ES6影响 蔚来降价清理库存ET5
财经网汽车8月17日讯蔚来开始针对一批90天以上库存的蔚来ET5直接给予2
2023-08-17 17:55:43
-
安徽阜阳:瓜果飘香“甜蜜”增收
安徽阜阳:瓜果飘香“甜蜜”增收-近年来,安徽省阜阳市颍东区充分发挥
2023-08-17 17:32:48
-
港股收评:三大指数止跌反弹,恒科指涨0.78%,造车新势力领涨
今日南下资金净流入115亿港元
2023-08-17 17:23:23
-
广西独生子女费发放新规2022 广西独生子女费按什么标准发放
2016年1月1日以前,具有广西户籍,自愿只生育一个子女,且持有《独生子
2023-08-17 17:13:04
-
重庆:支持长安汽车、中国汽研等行业龙头牵头组建体系化、任务型创新联合体
财经网汽车8月17日讯,重庆市政府新闻办17日举行2023中国国际智能产业
2023-08-17 16:58:01
-
Counterpoint:预计2023年全球智能手机出货量将同比下降6%
据CounterpointResearch最新预测,2023年全球智能手机出货量将同比下降
2023-08-17 16:53:26
-
外交部:中国新能源汽车“驶”向全球 中国经济向“绿”而行
财经网汽车8月17日讯,外交部发言人汪文斌8月17日主持例行记者会。有记
2023-08-17 17:03:28
-
欧盟新电池法正式生效
财经网汽车8月17日讯,公示满20天的《欧盟电池与废电池法规》正式生效
2023-08-17 16:57:07
-
“长途自驾第一车”BJ60领衔,夏季新疆体验“热点“之旅
8月新疆流光如火,蜿蜒贯穿荒漠伸向天边的公路泛起滚滚热浪,波纹荡漾
2023-08-17 16:13:24
-
2022年恒大员工减少1.84万人 许家印薪水12.6万 夏海钧薪水达2123.1万元
财经网讯,8月16日晚间,恒大发布2021年报、2022年报,以及2021年和202
2023-08-17 16:00:35
-
喜马拉雅推出“金琥珀”城市地标榜,以播客助力城市品牌传播
去一个城市旅行,想提前深度了解这个城市的文化、历史、特色,避免走马
2023-08-17 15:51:28
-
比亚迪方程豹及首款技术平台DMO正式发布
8月16日, "豹力全开共赴山海 "方程豹品牌暨技术发布会在深圳比亚迪全
2023-08-17 15:54:53
-
七夕带动浪漫经济升温,唯品会上节日礼盒消费迎爆发
随着七夕的临近,精彩纷呈的节日活动在各地举行。线上线下商家和品牌也
2023-08-17 16:03:49
-
太子集团太子阳光壹号黑卡会员发布会隆重举行
8月11日,“遇鉴·顶级奢华|太子黑卡发布会“在太子阳光壹号项目隆
2023-08-17 15:37:03
-
太子阳光壹号黑卡会员发布会隆重举行
8月11日,“遇鉴·顶级奢华|太子黑卡发布会“在太子阳光壹号项目隆
2023-08-17 15:38:49
-
全球播出!飞鹤携手Discovery探秘北纬47°黄金奶源地
历时5个月,穿越亚欧大陆,记录北纬47°的中国生态瑰宝。8月14日,由Di
2023-08-17 15:39:50
-
太子地产将在西港建柬埔寨首个反向蹦极项目
据媒体报道,太子地产集团透露,他们将在西港鼎沙湾打造一个大型度
2023-08-17 15:26:01