$OneMillion-Bench

github2026-03-11 更新2026-03-12 收录

下载链接：

https://github.com/humanlaya/OneMillion-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

5个专业领域，双语（中文+英文），400个问题：医疗保健、金融、工业、法律和自然科学。每个测试案例包含一个提示、可选的系统提示、领域标签和5-23个加权评分标准。

This dataset contains 400 bilingual (Chinese and English) questions across five professional domains: healthcare, finance, industry, law, and natural sciences. Each test case includes a prompt, an optional system prompt, a domain label, and 5 to 23 weighted scoring criteria.

创建时间：

2026-03-01

原始信息汇总

OneMillion-Bench 数据集概述

数据集基本信息

数据集名称：OneMillion-Bench
核心功能：一个基于量规的自动化评估系统，用于评估语言智能体在跨专业领域的经济概念性任务上的能力。
评估方式：使用加权二元评分、异步并发处理、成本跟踪以及Excel/JSON报告生成。

数据集内容

专业领域：5个
语言：双语（中文 + 英文）
问题总数：400个
领域分布：
- 医疗健康：80题（中文40，英文40）。涵盖临床医学、肿瘤学、制药、基因与细胞治疗。
- 金融：80题（中文40，英文40）。涵盖投资、股票、财务分析。
- 工业：80题（中文40，英文40）。涵盖系统工程、嵌入式系统、机器人技术。
- 法律：80题（中文40，英文40）。涵盖公司/商法、并购。
- 自然科学：80题（中文40，英文40）。涵盖化学、材料科学。

测试用例结构

每个测试用例包含以下内容：

提示词：问题或指令。
系统提示词：可选的系统提示。
领域标签：表示领域层次结构的标签列表。
案例ID：唯一的测试用例标识符。
评估量规：5-23个加权量规，分类为：
- 事实信息
- 分析推理
- 指令遵循
- 结构与格式

评估特性

评估模型：支持来自6个API提供商的50多个模型或智能体系统（OpenRouter、Qwen/DashScope、VolcEngine、Hunyuan、Ling-1T、LiteLLM）。
处理能力：
- 并发异步处理，最高支持128个并行请求。
- 重复采样与评判，用于方差估计。
- 支持网络搜索增强，用于启用搜索的生成任务。
评分系统：基于加权量规的二元（是/否）评估。
成本跟踪：按模型自动跟踪令牌使用量和费用。
报告输出：生成Gruvbox主题的Excel工作簿和JSON摘要。

数据格式与输出

输入格式：每个测试用例为JSON文件，包含prompt、system_prompt、tags、case_id和rubrics字段。
输出内容：结果保存至outputs/result_YYYYMMDD_HHMMSS/目录，包括：
- 更新的JSON文件（添加了模型响应、自动评分、评判链式思维等字段）。
- grading_results.xlsx：包含每位评判者的分数、汇总表和成本细分的Excel工作簿。
- grading_results.json：包含每个模型指标和成本的机器可读摘要。

引用信息

引用文献：$OneMillion-Bench: How Far are Language Agents from Human Experts?
作者：Yang, Qianyu 等人
预印本：arXiv:2603.07980
年份：2026

许可证

许可证类型：Apache License 2.0

搜集汇总

数据集介绍

构建方式

在专业领域知识评估的背景下，$OneMillion-Bench 数据集的构建采用了系统化的工程方法。其核心涵盖医疗健康、金融、工业、法律与自然科学五大专业领域，每个领域均精心编制了80道双语测试题目，共计400道。每道题目均附有详细的提示词、可选的系统指令、领域标签以及5至23条加权评估准则。这些准则被明确归类为事实信息、分析推理、指令遵循以及结构与格式四大类别，并赋予相应的权重分值，从而构建出一个结构严谨、维度丰富的评估框架。

特点

该数据集展现出多维度、高精度的显著特点。其评估体系基于加权准则进行自动化二元评分，支持重复采样与评判以估计方差，并集成了网络搜索增强功能。数据集覆盖超过50个模型，横跨六大API服务提供商，具备高达128路并发的异步处理能力。评估过程自动追踪各模型的令牌消耗与计算成本，最终生成风格统一的Gruvbox主题Excel工作簿与JSON格式的详细报告，为大规模语言智能体能力测评提供了高效、可复现的标准化方案。

使用方法

使用该数据集需通过其命令行工具`omb`进行操作。首先从指定仓库下载数据集文件，随后在环境中配置相应API密钥。用户通过编辑YAML配置文件来选择待评估的生成模型与评判模型，并可灵活设置并发数、采样次数等参数。执行评估命令后，系统将自动完成答案生成、准则评判、成本统计与报告输出全流程。结果将保存至带时间戳的输出目录，包含更新后的JSON数据、结构化的Excel评分表与汇总报告，支持对单一领域或全部领域进行递归评估。

背景与挑战

背景概述

随着大语言模型在通用领域展现出卓越能力，其在专业垂直领域的应用潜力与性能评估成为研究焦点。$OneMillion-Bench 由 BigAI 研究院于2026年推出，旨在构建一个基于量规的自动化评估系统，专门针对语言智能体在经济概念性任务上的专业能力进行系统性评测。该数据集涵盖医疗健康、金融、工业、法律与自然科学五大专业领域，共计400个双语问题，每个问题均附带精细加权量规，核心研究问题聚焦于量化评估语言模型在复杂专业场景下的信息准确性、分析推理、指令遵循与结构化输出等核心能力，为领域专家级人工智能的发展提供了关键基准。

当前挑战

该数据集致力于解决专业领域语言智能体能力评估的挑战，其核心在于如何设计一套能够精准衡量模型在复杂、高门槛专业任务中表现的评价体系。具体挑战包括：构建跨领域、双语对齐的高质量专业问题与量规，确保评估内容的深度与广度；实现自动化、可复现且成本可控的大规模模型评测流程，涉及多达50余个模型与高并发处理；以及设计合理的加权评分机制，以统一标准量化模型在事实性、推理、指令遵循等多维度上的表现，并有效跟踪与对比不同模型的资源消耗。

常用场景

经典使用场景

在专业领域智能体评估的背景下，$OneMillion-Bench数据集为语言模型在经济学概念任务上的能力提供了标准化的测评框架。其经典使用场景集中于对50余个模型或智能体系统进行自动化、多维度评估，涵盖医疗健康、金融、工业、法律及自然科学五大专业领域。通过加权评分标准和异步并发处理，研究者能够系统性地对比不同模型在事实信息、分析推理、指令遵循及结构格式等方面的表现，从而为模型优化与选型提供实证依据。

实际应用

在实际应用层面，$OneMillion-Bench为企业和研究机构提供了高效的模型选型与性能验证工具。其支持的成本追踪与并发处理功能，使得用户能够在大规模评估中优化资源使用，并生成详尽的Excel与JSON报告。例如，在金融分析或医疗咨询等专业场景中，该工具可帮助开发者筛选出在特定领域表现优异的语言模型，从而提升智能体在实际业务中的可靠性与效率。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在智能体评估方法与跨领域能力迁移的研究上。例如，基于其加权评分体系，后续研究提出了更细粒度的评估指标与动态权重调整策略。同时，该数据集也为多模态专业任务评估、领域自适应预训练以及经济概念推理的基准构建提供了重要参考，推动了语言智能体在专业化与实用化方向上的持续探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集