智能体与自动化

CMMLU

CMMLU是综合性的中文评估基准，专门用在评估语言模型在中文语境下的知识和推理能力，涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学，需要知识的人文科学和社会科学，及需要生活常识的中国驾驶规则等。

访问官网更新于 2026/04/15

工具分类智能体与自动化按实际使用场景归类

官网入口github.com保留原站直达链接

收费方式官网可查看最终价格以官网为准

关注人数4A+ 优先推荐

CMMLU 是什么

CMMLU 是一款面向智能体与自动化场景的 AI 工具，一个综合性的大模型中文评估基准。

CMMLU是综合性的中文评估基准，专门用在评估语言模型在中文语境下的知识和推理能力，涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学，需要知识的人文科学和社会科学，及需要生活常识的中国驾驶规则等。CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。CMMLU提供丰富的测试数据和排行榜，支持多种评估方式，如five-shot和zero-shot测试，是衡量中文语言模型性能的重要工具。排行榜：展示不同语言模型在five-shot和zero-shot测试下的表现，帮助比较模型性能。

主要能力

01AI模型评测

排行榜

02核心能力 02

数据集

03核心能力 03

预处理代码

04核心能力 04

评估工具

05核心能力 05

获取数据集

06核心能力 06

从GitHub下载

适合场景

从基础学科到高级专业水平的67个主题

CMMLU 可用于从基础学科到高级专业水平的67个主题，适合先用一个真实任务验证输出质量。

需要计算和推理的自然科学

CMMLU 可用于需要计算和推理的自然科学，适合先用一个真实任务验证输出质量。

丰富的测试数据和排行榜

CMMLU 可用于丰富的测试数据和排行榜，适合先用一个真实任务验证输出质量。

开发和测试数据

CMMLU 可用于开发和测试数据，适合先用一个真实任务验证输出质量。

CMMLU

CMMLU 是什么

主要能力

适合场景

如何开始使用 CMMLU

常见问题