XDomainBench
收藏数据集概述:XDomainBench
XDomainBench 是一个用于诊断高维科学知识组合中“推理崩溃”问题的开源基准测试集。
核心特点
- 双规模数据集:
full_dataset:包含 64 个 JSON 文件、8,598 个场景、52,582 轮对话。small_dataset:包含 64 个 JSON 文件、1,137 个场景、6,659 轮对话,适合快速迭代。
- 可重复评估框架:
- 提供统一的评估器
evaluation/run_evaluation.py,支持单个命令行运行。 - 默认启用“历史感知评估”,并支持可配置的历史窗口。
- 通过 JSON 配置文件(
eval_config.example.json)实现可重复运行。 - 使用版本化的提示模板(
evaluation/prompt_templates.json)。
- 提供统一的评估器
- 多模型 API 支持:通过
litellm库支持 OpenAI、Anthropic、Gemini 等多个模型提供商。 - 隐私保护:文档中不含本地路径或硬编码 API 密钥,采用环境变量方式管理凭证。
数据集访问
- Hugging Face 地址:https://huggingface.co/datasets/ZHIREN001/XDomainBench
- 项目官网:https://gongzhiren.github.io/XDomainBench-website/
- 数据集使用说明:位于仓库的
dataset/README.md。
仓库结构
XDomainBench/ ├── dataset/ │ ├── full_dataset/ # 完整数据集 │ ├── small_dataset/ # 轻量级数据集 │ └── README.md # 数据集使用说明 ├── evaluation/ │ ├── run_evaluation.py # 评估主脚本 │ ├── scoring.py # 评分模块 │ ├── prompt_templates.json # 提示模板 │ ├── eval_config.example.json # 评估配置示例 │ ├── model_registry.example.json # 模型注册示例 │ ├── requirements.txt # 依赖列表 │ └── README.md # 评估使用说明 ├── website/ # 项目网站源码 ├── .env.example # 环境变量示例 ├── CITATION.cff # 引用元数据 ├── LICENSE # MIT 许可证 └── README.md # 本文件
快速开始
-
安装依赖: bash cd evaluation pip install -r requirements.txt
-
配置 API 凭证: bash export OPENAI_API_KEY="your_key_here" export ANTHROPIC_API_KEY="your_key_here" export GEMINI_API_KEY="your_key_here"
-
运行轻量级评估: bash python run_evaluation.py --dataset-root ../dataset/small_dataset --model gpt-4o-mini --output-dir ../outputs
或使用配置文件运行: bash python run_evaluation.py --config eval_config.example.json
-
运行完整评估: bash python run_evaluation.py --dataset-root ../dataset/full_dataset --model anthropic/claude-3-7-sonnet-latest --output-dir ../outputs
-
禁用历史模式(消融实验): bash python run_evaluation.py --dataset-root ../dataset/small_dataset --model gpt-4o-mini --no-history --output-dir ../outputs
支持评估的模型系列
论文评估了以下模型系列,所有模型均通过 LiteLLM 兼容的模型 ID 支持:
- OpenAI:GPT-5.2、GPT-5-mini
- Anthropic:Claude 4.5 Sonnet、Claude 4.5 Haiku
- Google:Gemini 2.5 Flash、Gemini 2.0 Flash
- Qwen:Qwen2.5-72B、Qwen2.5-14B、Qwen2.5-7B、Qwen3-Next-80B
- Meta:Llama-3.1-8B、Llama-3.2-3B
- Google Gemma:Gemma-2-2B-IT
- Mistral:Mixtral-8x7B
默认运行时参数:temperature=1.0、top_p=1.0、timeout_seconds=60。
评估输出
每次运行会在一个带时间戳的文件夹中生成以下文件:
leaderboard.json:模型排名<model_dir>/summary.json:配置和聚合指标<model_dir>/predictions.jsonl:逐轮预测与正确性标志<model_dir>/complete_results.json:按场景分组的完整结果记录
引用
bibtex @inproceedings{gong2026xdomainbench, title = {{XD}omainBench: Diagnosing Reasoning Collapse in High-Dimensional Scientific Knowledge Composition}, author = {Gong, Zhiren and Wu, Tiantong and Zhang, Jiaming and Zhang, Fuyao and Wang, Che and Hao, Yurong and Hou, Yikun and Foo, Ping and Zhao, Yilei and Huang, Fei and Yuen, Chau and Lim, Wei Yang Bryan}, booktitle = {Forty-third International Conference on Machine Learning}, year = {2026}, url = {https://openreview.net/forum?id=U8x5SYtT5b} }
许可证
本项目采用 MIT 许可证。




