智能体与自动化

C-Eval

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别，用以评测大模型中文理解能力。

访问官网更新于 2026/04/15

工具分类智能体与自动化按实际使用场景归类

官网入口cevalbenchmark.com保留原站直达链接

收费方式官网可查看最终价格以官网为准

关注人数12A+ 优先推荐

C-Eval 是什么

C-Eval 是一款面向智能体与自动化场景的 AI 工具，一个全面的中文基础模型评估套件。

C-Eval是适用于大语言模型的多层次多学科中文评估套件，由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出，包含13948个多项选择题，涵盖52个不同的学科和四个难度级别，用在评测大模型中文理解能力。通过零样本（zero-shot）和少样本（few-shot）测试，C-Eval 能评估模型在未见过的任务上的适应性和泛化能力。多学科覆盖：C-Eval 包含 52 个不同学科的题目，涵盖 STEM、社会科学、人文科学等多个领域，全面评估语言模型的知识储备。

主要能力

01AI模型评测

多学科覆盖

02核心能力 02

多层次难度分级

03核心能力 03

量化评估与标准化测试

04核心能力 04

数据下载

05核心能力 05

Hugging Face 下载：

06核心能力 06

或者直接下载 ZIP 文件并解压：

适合场景

13948个多项选择题

C-Eval 可用于13948个多项选择题，适合先用一个真实任务验证输出质量。

52 个不同学科的题目

C-Eval 可用于52 个不同学科的题目，适合先用一个真实任务验证输出质量。

社会科学

C-Eval 可用于社会科学，适合先用一个真实任务验证输出质量。

人文科学等多个领域

C-Eval 可用于人文科学等多个领域，适合先用一个真实任务验证输出质量。

C-Eval

C-Eval 是什么

主要能力

适合场景

如何开始使用 C-Eval

常见问题