智能体与自动化

MMBench

MMBench是多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。

访问官网更新于 2026/04/15

工具分类智能体与自动化按实际使用场景归类

官网入口mmbench.opencompass.org.cn保留原站直达链接

收费方式官网可查看最终价格以官网为准

关注人数3A+ 优先推荐

MMBench 是什么

MMBench 是一款面向智能体与自动化场景的 AI 工具，全方位的多模态大模型能力评测体系。

MMBench是多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测，循环打乱选项验证输出结果的一致性，基于ChatGPT精准匹配模型回复至选项。MMBench涵盖多种任务类型，如视觉问答、图像描述生成等，基于综合多维度指标，为模型提供全面的性能评估。MMBench 的排行榜展示不同模型在这些任务上的表现，帮助研究者和开发者了解当前多模态技术的发展水平，推动相关领域的技术进步。细粒度能力评估：将多模态能力细分为多个维度（如感知、推理等），针对每个维度设计相关问题，全面评估模型的细粒度能力。

主要能力

01AI模型评测

细粒度能力评估

02核心能力 02

大规模多模态数据集

03核心能力 03

创新评估策略

04核心能力 04

多语言支持

05核心能力 05

数据可视化

06核心能力 06

官方评估工具

适合场景

多种任务类型

MMBench 可用于多种任务类型，适合先用一个真实任务验证输出质量。

图像描述生成等

MMBench 可用于图像描述生成等，适合先用一个真实任务验证输出质量。

约 3000 个多项选择题

MMBench 可用于约 3000 个多项选择题，适合先用一个真实任务验证输出质量。

MMBench

MMBench 是什么

主要能力

适合场景

如何开始使用 MMBench

常见问题