智能体与自动化

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

访问官网更新于 2026/04/15

工具分类智能体与自动化按实际使用场景归类

官网入口huggingface.co保留原站直达链接

收费方式官网可查看最终价格以官网为准

关注人数9A+ 优先推荐

Open LLM Leaderboard 是什么

Open LLM Leaderboard 是一款面向智能体与自动化场景的 AI 工具，Hugging Face推出的开源大模型排行榜单。

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。Open LLM Leaderboard通过多种基准测试（如 IFEval、BBH、MATH 等），从指令遵循、复杂推理、数学解题、专业知识问答等多个维度对模型进行评估。排行榜涵盖预训练模型、聊天模型等多种类型，提供详细的数值结果和模型输入输出细节。Open LLM Leaderboard 能帮助用户筛选出当前最先进的模型，推动开源社区的进步。多维度基准测试：包括多种基准测试（如 IFEval、BBH、MATH、GPQA 等），涵盖指令遵循、复杂推理、数学解题、专业知识问答等多个领域，全面评估模型能力。

主要能力

01AI模型评测

多维度基准测试

02核心能力 02

多种模型类型支持

03核心能力 03

详细结果展示

04核心能力 04

社区互动

05核心能力 05

可复现性支持

06核心能力 06

IFEval

适合场景

多种基准测试（如 IFEval

Open LLM Leaderboard 可用于多种基准测试（如 IFEval，适合先用一个真实任务验证输出质量。

BBH

Open LLM Leaderboard 可用于BBH，适合先用一个真实任务验证输出质量。

MATH

Open LLM Leaderboard 可用于MATH，适合先用一个真实任务验证输出质量。

GPQA 等）

Open LLM Leaderboard 可用于GPQA 等），适合先用一个真实任务验证输出质量。

复杂推理

Open LLM Leaderboard 可用于复杂推理，适合先用一个真实任务验证输出质量。

数学解题

Open LLM Leaderboard 可用于数学解题，适合先用一个真实任务验证输出质量。

Open LLM Leaderboard

Open LLM Leaderboard 是什么

主要能力

适合场景

如何开始使用 Open LLM Leaderboard

常见问题