OpenCompass多模态大模型评测排名
商汤日日新平均得分达到77.4,领先GPT-4o、Claude 3.5 Sonnet以及国内所有不同尺寸的开源和闭源模型。尤其在涵盖算术、统计、代数、几何、数值常识、科学和逻辑的权威数据集MathVista维度上,取得78.4 分的最高分,展现了领先的“数理”能力。
OpenCompass 多模态评测包含八个核心数据集,从多种视角客观量化多模态大模型的能力。此次评测中,商汤日日新在几乎所有维度上都达到或超过GPT-4o水平,其中四个维度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。
OpenCompass大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。
小试牛刀,商汤多模态进阶
作为计算机视觉领域的先行者和领军企业,早在几年前,商汤就确定了多模态大模型的研究方向,并在研发中,融合积累的领先算法、丰富数据和场景认知建立起核心优势。
2023年4月,商汤率先发布了行业领先的多模态大模型;
2024年2月,基于商汤日日新4.0的多模态大模型,在当时权威评测基准测试集MME Benchmark上位列第一,综合得分达2199.5(超过GPT-4V的1926.57),并应用到智能驾驶、智能车舱、电力行业等多个场景;
OpenCompass 多模态评测包含八个核心数据集,从多种视角客观量化多模态大模型的能力。此次评测中,商汤日日新在几乎所有维度上都达到或超过GPT-4o水平,其中四个维度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。OpenCompass大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。
小试牛刀,商汤多模态进阶
作为计算机视觉领域的先行者和领军企业,早在几年前,商汤就确定了多模态大模型的研究方向,并在研发中,融合积累的领先算法、丰富数据和场景认知建立起核心优势。
2023年4月,商汤率先发布了行业领先的多模态大模型;
2024年2月,基于商汤日日新4.0的多模态大模型,在当时权威评测基准测试集MME Benchmark上位列第一,综合得分达2199.5(超过GPT-4V的1926.57),并应用到智能驾驶、智能车舱、电力行业等多个场景;
商汤日日新输出结果,并给出详细解题过程:
商汤日日新再次输出正确结果。
数学回答满分,再来看看物理。
商汤日日新输出结果:
物理题也答对啦~
此外,通过多模态融合并对模型进行定向优化,商汤日日新多模态大模型还大幅提升了对统计图表和多模态文档的理解能力。
评测中,当难度提升,让我们看看结果如何。
提问:使用下表中的数据,计算2011年每股FCFE的金额。
商汤日日新输出推理结果:
商汤日日新成功输出推理结果,效果令人惊叹。
随着融合模态有效提升AI大模型性能,多模态融合未来可广泛应用于诸多场景,例如在线上教育、语音客服等场景,结合语音和自然语言来提升交互体验;在自动驾驶场景,融合视觉及多种模态数据,来提升感知精度和决策能力等。
数理还只是起点。目前,日日新SenseNova多模态大模型已经可以通过API调用,即将开放普通用户体验。
One more thing,商汤日日新多模态大模型还能看懂中国书画。
不信比一比,看看下面图片中写的是什么?