智能体与自动化

MMLU

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。

访问官网更新于 2026/04/15

工具分类智能体与自动化按实际使用场景归类

官网入口paperswithcode.com保留原站直达链接

收费方式官网可查看最终价格以官网为准

关注人数18B+ 可用

MMLU 是什么

MMLU 是一款面向智能体与自动化场景的 AI 工具，大规模多任务语言理解基准。

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。

主要能力

01AI模型评测

57项任务

02核心能力 02

美国历史

03核心能力 03

计算机科学

04核心能力 04

法律等

05核心能力 05

的知识很广泛

适合场景

57项任务

MMLU 可用于57项任务，适合先用一个真实任务验证输出质量。

美国历史

MMLU 可用于美国历史，适合先用一个真实任务验证输出质量。

计算机科学

MMLU 可用于计算机科学，适合先用一个真实任务验证输出质量。

法律等

MMLU 可用于法律等，适合先用一个真实任务验证输出质量。

的知识很广泛

MMLU 可用于的知识很广泛，适合先用一个真实任务验证输出质量。

MMLU

MMLU 是什么

主要能力

适合场景

如何开始使用 MMLU

常见问题