智能体与自动化

FlagEval

访问官网更新于 2026/04/15

工具分类智能体与自动化按实际使用场景归类

官网入口flageval.baai.ac.cn保留原站直达链接

收费方式官网可查看最终价格以官网为准

关注人数9A+ 优先推荐

FlagEval 是什么

FlagEval 是一款面向智能体与自动化场景的 AI 工具，智源研究院推出的FlagEval（天秤）大模型评测平台。

FlagEval（天秤）是北京智源人工智能研究院（BAAI）推出的科学、公正、开放的大模型评测体系及开放平台，为研究人员提供全面评估基础模型及训练算法性能的工具和方法。FlagEval采用“能力-任务-指标”三维评测框架，从多个维度对大模型的认知能力进行评估，涵盖对话、问答、情感分析等多种应用场景，提供超过22个数据集和8万道评测题目。平台支持多模态模型评测，覆盖文本、图像、视频等多种数据类型，兼容多种AI框架和硬件架构。FlagEval提供自动化评测机制，支持主观与客观评测的全自动流水线，帮助研究人员高效、准确地了解模型性能，推动大模型技术的发展。多维度评测框架：采用“能力-任务-指标”三维评测框架，从多个维度全面评估大模型的认知能力，涵盖对话、问答、情感分析等多种应用场景。

主要能力

01AI模型评测

多维度评测框架

02核心能力 02

丰富的评测数据集

03核心能力 03

多模态支持

04核心能力 04

自动化评测机制

05核心能力 05

广泛的模型覆盖

06核心能力 06

排行榜与结果展示

适合场景

对话

FlagEval 可用于对话，适合先用一个真实任务验证输出质量。

问答

FlagEval 可用于问答，适合先用一个真实任务验证输出质量。

情感分析等多种应用场景

FlagEval 可用于情感分析等多种应用场景，适合先用一个真实任务验证输出质量。

图像

FlagEval 可用于图像，适合先用一个真实任务验证输出质量。

视频等多种数据类型

FlagEval 可用于视频等多种数据类型，适合先用一个真实任务验证输出质量。

自动化评测机制

FlagEval 可用于自动化评测机制，适合先用一个真实任务验证输出质量。

FlagEval

FlagEval 是什么

主要能力

适合场景

如何开始使用 FlagEval

常见问题