新榜讯 最新发布的2024年3月版《SuperBench大模型综合能力评测报告》是由清华大学基础模型研究中心与中关村实验室联合研制的。这次评测涵盖了14个具有代表性的国内外模型。在人类对齐能力评测中,文心一言4.0在中文推理和中文语言等方面表现出色,凭借高分明显领先其他模型。在中文理解方面,文心一言4.0也遥遥领先,超过第二名GLM-4 0.41分的差距。相比之下,GPT-4系列模型在评测中的表现较差,排名位于中下游,与第一名文心一言4.0的得分相差超过1分。
扫描二维码
手机浏览
清华大模型报告:文心一言中文理解、数学等多项能力全球第一
分享文章链接
相似推荐

腾讯混元图像3.0登顶LMArena全球盲测第一
新榜讯 10月5日,界面新闻独家消息,国际大模型竞技场LMArena发布的最新榜单表明,混元图像3.0在全球26款模型参与的用户盲测中脱颖而出,荣登榜首,被评定为最佳综合文生图模型。

阿里推出智能体开发框架AgentScope 1.0
新榜讯 ,通义大模型官微发布动态,阿里通义实验室正式推出新一代智能体开发框架——AgentScope 1.0。

报告:中国企业调用大模型日均超10万亿Tokens,阿里通义份额第一
新榜讯 报告指出,中国企业级大模型调用量呈现爆发式增长态势,2025年上半年日均调用量相较于2024年底大幅增长363%,目前已超10万亿Tokens。