智能体与自动化

AGI-Eval

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态，以“评测助力，让AI成为人类更好的伙伴”为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。

访问官网更新于 2026/04/15

工具分类智能体与自动化按实际使用场景归类

官网入口agi-eval.cn保留原站直达链接

收费方式免费最终价格以官网为准

关注人数16A+ 优先推荐

AGI-Eval 是什么

AGI-Eval 是一款面向智能体与自动化场景的 AI 工具，AI大模型评测社区。

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态，以“评测助力，让AI成为人类更好的伙伴”为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。AGI-Eval通过这些考试来评估模型的性能，与人类决策和认知能力直接相关。衡量模型在人类认知能力方面的表现，有助于了解在现实生活中的适用性和有效性。大模型榜单：基于通用评测方案，提供业内大语言模型的能力得分排名榜单。榜单涵盖综合评测和各能力项评测。数据透明、权威，帮助您深入了解每个模型的优缺点，定期更新榜单，确保您掌握最新信息，找到最适合的模型解决方案。

主要能力

01AI模型评测

大模型榜单

02核心能力 02

AGI-Eval人机评测比赛

03核心能力 03

评测集

04核心能力 04

公开学术

05核心能力 05

官方评测集

06核心能力 06

用户自建评测集

适合场景

AI模型评测

AGI-Eval 可用于AI模型评测，适合先用一个真实任务验证输出质量。

AGI-Eval

AGI-Eval 是什么

主要能力

适合场景

如何开始使用 AGI-Eval

常见问题