智能体与自动化

LLMEval3

LLMEval是由复旦大学NLP实验室推出的大模型评测基准，最新的LLMEval-3聚焦于专业知识能力评测，涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科，共计约20W道标准生成式问答题目。

访问官网更新于 2026/04/15

工具分类智能体与自动化按实际使用场景归类

官网入口llmeval.com保留原站直达链接

收费方式官网可查看最终价格以官网为准

关注人数8B+ 可用

LLMEval3 是什么

LLMEval3 是一款面向智能体与自动化场景的 AI 工具，由复旦大学NLP实验室推出的大模型评测基准。

01AI模型评测

哲学

02核心能力 02

经济学

03核心能力 03

法学

04核心能力 04

教育学

05核心能力 05

文学

06核心能力 06

历史学

哲学

LLMEval3 可用于哲学，适合先用一个真实任务验证输出质量。

经济学

LLMEval3 可用于经济学，适合先用一个真实任务验证输出质量。

法学

LLMEval3 可用于法学，适合先用一个真实任务验证输出质量。

教育学

LLMEval3 可用于教育学，适合先用一个真实任务验证输出质量。

文学

LLMEval3 可用于文学，适合先用一个真实任务验证输出质量。

历史学

LLMEval3 可用于历史学，适合先用一个真实任务验证输出质量。