XDomainBench

github2026-05-14 更新2026-05-15 收录

下载链接：

https://github.com/GongZhiren/XDomainBench

下载链接

链接失效反馈

官方服务：

资源简介：

XDomainBench是一个用于诊断高维科学知识组合中推理崩溃的开放基准测试，包含完整数据集和小型数据集，支持多轮交互式跨学科科学推理评估。

XDomainBench is an open benchmark for diagnosing reasoning breakdowns in the composition of high-dimensional scientific knowledge. It includes both full-scale and small-scale datasets, and supports multi-turn interactive cross-disciplinary scientific reasoning evaluation.

创建时间：

2026-05-14

原始信息汇总

数据集概述：XDomainBench

XDomainBench 是一个用于诊断高维科学知识组合中“推理崩溃”问题的开源基准测试集。

核心特点

双规模数据集：
- full_dataset：包含 64 个 JSON 文件、8,598 个场景、52,582 轮对话。
- small_dataset：包含 64 个 JSON 文件、1,137 个场景、6,659 轮对话，适合快速迭代。
可重复评估框架：
- 提供统一的评估器 evaluation/run_evaluation.py，支持单个命令行运行。
- 默认启用“历史感知评估”，并支持可配置的历史窗口。
- 通过 JSON 配置文件（eval_config.example.json）实现可重复运行。
- 使用版本化的提示模板（evaluation/prompt_templates.json）。
多模型 API 支持：通过 litellm 库支持 OpenAI、Anthropic、Gemini 等多个模型提供商。
隐私保护：文档中不含本地路径或硬编码 API 密钥，采用环境变量方式管理凭证。

数据集访问

Hugging Face 地址：https://huggingface.co/datasets/ZHIREN001/XDomainBench
项目官网：https://gongzhiren.github.io/XDomainBench-website/
数据集使用说明：位于仓库的 dataset/README.md。

仓库结构

XDomainBench/ ├── dataset/ │ ├── full_dataset/ # 完整数据集 │ ├── small_dataset/ # 轻量级数据集 │ └── README.md # 数据集使用说明 ├── evaluation/ │ ├── run_evaluation.py # 评估主脚本 │ ├── scoring.py # 评分模块 │ ├── prompt_templates.json # 提示模板 │ ├── eval_config.example.json # 评估配置示例 │ ├── model_registry.example.json # 模型注册示例 │ ├── requirements.txt # 依赖列表 │ └── README.md # 评估使用说明 ├── website/ # 项目网站源码 ├── .env.example # 环境变量示例 ├── CITATION.cff # 引用元数据 ├── LICENSE # MIT 许可证 └── README.md # 本文件

快速开始

安装依赖： bash cd evaluation pip install -r requirements.txt
配置 API 凭证： bash export OPENAI_API_KEY="your_key_here" export ANTHROPIC_API_KEY="your_key_here" export GEMINI_API_KEY="your_key_here"
运行轻量级评估： bash python run_evaluation.py --dataset-root ../dataset/small_dataset --model gpt-4o-mini --output-dir ../outputs

或使用配置文件运行： bash python run_evaluation.py --config eval_config.example.json
运行完整评估： bash python run_evaluation.py --dataset-root ../dataset/full_dataset --model anthropic/claude-3-7-sonnet-latest --output-dir ../outputs
禁用历史模式（消融实验）： bash python run_evaluation.py --dataset-root ../dataset/small_dataset --model gpt-4o-mini --no-history --output-dir ../outputs

支持评估的模型系列

论文评估了以下模型系列，所有模型均通过 LiteLLM 兼容的模型 ID 支持：

OpenAI：GPT-5.2、GPT-5-mini
Anthropic：Claude 4.5 Sonnet、Claude 4.5 Haiku
Google：Gemini 2.5 Flash、Gemini 2.0 Flash
Qwen：Qwen2.5-72B、Qwen2.5-14B、Qwen2.5-7B、Qwen3-Next-80B
Meta：Llama-3.1-8B、Llama-3.2-3B
Google Gemma：Gemma-2-2B-IT
Mistral：Mixtral-8x7B

默认运行时参数：temperature=1.0、top_p=1.0、timeout_seconds=60。

评估输出

每次运行会在一个带时间戳的文件夹中生成以下文件：

leaderboard.json：模型排名
<model_dir>/summary.json：配置和聚合指标
<model_dir>/predictions.jsonl：逐轮预测与正确性标志
<model_dir>/complete_results.json：按场景分组的完整结果记录

引用

bibtex @inproceedings{gong2026xdomainbench, title = {{XD}omainBench: Diagnosing Reasoning Collapse in High-Dimensional Scientific Knowledge Composition}, author = {Gong, Zhiren and Wu, Tiantong and Zhang, Jiaming and Zhang, Fuyao and Wang, Che and Hao, Yurong and Hou, Yikun and Foo, Ping and Zhao, Yilei and Huang, Fei and Yuen, Chau and Lim, Wei Yang Bryan}, booktitle = {Forty-third International Conference on Machine Learning}, year = {2026}, url = {https://openreview.net/forum?id=U8x5SYtT5b} }

许可证

本项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

XDomainBench是一个用于诊断高维科学知识组合中推理崩溃现象的开源基准测试。该数据集以JSON格式组织，包含full_dataset和small_dataset两个版本，分别收纳了64个JSON文件、8598个场景与52582轮对话，以及64个JSON文件、1137个场景与6659轮对话。其构建围绕跨领域科学知识的多轮交互逻辑展开，每个场景模拟模型在复杂知识聚合过程中的推理路径，旨在系统性地捕获推理质量下降的临界点。

使用方法

使用XDomainBench进行评测时，首先需安装evaluation目录下的依赖项，并通过环境变量配置模型API密钥。随后借助run_evaluation.py脚本，指定数据集根目录、目标模型标识符及输出路径即可启动评测。代码支持单次模型指定与JSON配置文件驱动的批量化运行，可选--no-history参数用于关闭历史感知以进行消融实验。评测输出包括排行榜、摘要指标及逐轮预测结果，便于深入分析模型在各推理阶段的性能表现。

背景与挑战

背景概述

在人工智能与科学知识交叉领域，大型语言模型在高维科学知识组合任务中展现出惊人能力，却也暴露出推理坍缩这一顽疾。为系统性诊断此问题，XDomainBench基准数据集应运而生，由Gong Zhiren等学者在2026年国际机器学习大会（ICML）上正式发布。该数据集由64个JSON文件构成，完整版本涵盖8598个场景与52582轮对话，为评估模型在多学科知识交织时的推理稳健性提供了标准化舞台。其影响力体现在为学界提供了可复现的评测协议与历史感知评估机制，推动了高维科学推理领域的前沿探索。

当前挑战

XDomainBench致力于审视的核心领域挑战是大型语言模型在高维科学知识组合中发生的推理坍缩现象。此类模型虽能在单一领域表现优异，但面对跨学科、高维度的知识融合时，常因语义冲突或逻辑断层而陷入错误推断。数据集构建过程同样面临多重难题：需在64个JSON文件中精心编排8598个复杂科学场景，确保每轮对话兼具领域真实性与推理边界挑战性；同时设计支持多提供商模型API的统一评估工具（通过litellm），并默认启用历史感知模式以捕捉推理过程中的上下文依赖性。

常用场景

经典使用场景

在高维科学知识合成的前沿研究中，大型语言模型常因领域跨度巨大而出现推理能力坍塌，即无法有效整合来自不同学科的知识片段。XDomainBench正是针对这一痛点而设计的开放式基准测试，其经典使用场景在于评估模型在跨学科、高维度知识组合任务中的推理连贯性与准确性。通过涵盖近8600个场景、超过5万轮对话的全量数据集，研究者能够系统性考察模型在物理、生物、化学等多元领域知识交汇处的表现，尤其聚焦其维持逻辑一致性与避免知识冲突的能力。该基准亦提供轻量级子集，便于快速迭代实验，兼顾了研究的深度与效率。

解决学术问题

该数据集直面学术界长期悬而未决的难题：如何量化并诊断大语言模型在高维科学知识合成中的推理坍塌现象。传统推理评估多聚焦于单一领域或简单逻辑链，而XDomainBench通过构建跨越数十个科学子领域的复合推理场景，首次提供了系统测量模型跨域知识整合失败率的工具。研究者可据此揭示模型在复杂知识融汇处的薄弱环节，例如，当同时调用量子力学与分子生物学知识时，模型倾向于丢失关键约束或产生语义漂移。该基准的意义在于，它不仅刻画了现有模型的共性与边界，更催生了对推理鲁棒性与知识表征结构的深层反思，推动了更为稳健的跨学科AI系统的设计。

实际应用

在实际应用层面，XDomainBench为需要高可靠性知识融合的产业场景提供了关键评测手段。例如，在科学文献自动综述、多学科研发辅助系统以及跨领域智能问答平台中，模型须在极短时间内整合来自不同学科的信息并输出一致结论。该数据集通过模拟这类高复杂度任务，帮助开发者在模型选型与部署前识别其推理薄弱环节，从而避免因知识冲突导致的错误输出。此外，其基于环境的凭证管理与可复现的配置驱动流程，使得该基准能无缝接入工业级的模型测试流水线，为金融风控、医疗诊断等对逻辑严苛性要求极高的领域提供前置保障。

数据集最近研究