IDRBench

Name: IDRBench
Creator: 加拿大皇后大学电气与计算机工程系及Ingenuity Labs研究所以及加拿大国家研究委员会、巴西戈亚斯联邦学院
Published: 2025-07-21 23:43:05
License: 暂无描述

arXiv2025-07-21 更新2025-07-23 收录

下载链接：

https://anonymous.4open.science/r/IDRBench-Framework/

下载链接

链接失效反馈

官方服务：

资源简介：

IDRBench是一个开创性的基准数据集，旨在评估大型语言模型在跨学科研究中的能力。数据集包含来自ArXiv平台六个不同学科的9485篇科学出版物，由具有不同学术背景的领域专家进行标注。数据集的设计遵循跨学科研究发展的自然阶段，包括跨学科论文识别、跨学科想法整合和跨学科想法推荐三个任务。IDRBench为评估大型语言模型在复杂、跨学科科学研究中的表现提供了一个系统性的框架。

提供机构：

加拿大皇后大学电气与计算机工程系及Ingenuity Labs研究所以及加拿大国家研究委员会、巴西戈亚斯联邦学院

创建时间：

2025-07-21

原始信息汇总

IDRBench Framework 数据集概述

数据集基本信息

最后更新日期：2025年5月16日
数据集来源：Anonymous GitHub
数据集地址：https://anonymous.4open.science/r/IDRBench-Framework/

数据集内容

主要文件：
- README.md
- config.yml
- evaluation.py
- lm_client.py
- main.py
- reformat_data.ipynb
- requirements.txt
- run_exp.ipynb
- tasks.py
- utils.py

数据集用途

实验运行：通过main.py运行实验，需输入以下字段：
- provider：模型开发者
- model_name：模型名称
- task：从三个选项中选择一个
- eval_type：仅在评估时填写
- save_path：结果路径文件夹

配置文件

config.yml：包含基于API的LLM配置和任务配置

搜集汇总

数据集介绍

构建方式

IDRBench数据集的构建基于ArXiv平台上的科学出版物，涵盖六个不同学科领域。通过领域专家的精心标注，形成了结构化的论文三元组[Citing Paper PA; (Cited Paper PB, Cited Paper PC)]，其中PA为跨学科研究论文，PB和PC分别来自不同学科。为确保数据质量，标注过程强调明确的跨学科研究特征维度，并采用双重检查机制保证标注一致性。此外，通过分层抽样策略构建了负样本集，以反映真实跨学科研究的稀疏性。

特点

IDRBench作为首个专注于评估大型语言模型在跨学科研究中能力的基准数据集，其核心特点体现在三个方面：首先，采用专家标注的三元组结构，精准捕捉跨学科研究的核心特征；其次，数据集涵盖计算机科学、物理学、经济学等六个学科领域，确保学科多样性；最后，通过设计不同难度级别的子集，为模型能力评估提供多维度视角。特别值得注意的是，该数据集在学科组合分布上较原始ArXiv数据更具跨学科代表性。

使用方法

IDRBench支持三种递进式的评估任务：跨学科论文识别(IPI)用于判断论文的跨学科属性；跨学科思想整合(I3)评估模型融合不同学科思想的能力；跨学科思想推荐(I2R)测试模型在候选论文中识别最相关跨学科研究的能力。使用时需遵循闭卷评估设置，通过零样本或少样本提示策略激发模型潜力。评估指标包括F1值、平均倒数排名(MRR)等，特别强调对模型生成的跨学科思想质量进行语义和内容层面的双重分析。

背景与挑战

背景概述

IDRBench是由加拿大女王大学电气与计算机工程系及Ingenuity Labs研究所的Yuanhao Shen等人于2025年提出的跨学科研究评估基准。该数据集旨在填补大型语言模型(LLMs)在跨学科研究(Interdisciplinary Research, IDR)能力评估方面的空白，首次系统性地构建了包含专家标注的跨学科论文三元组数据集。数据集核心研究问题聚焦于评估LLMs整合多学科知识、生成创新研究想法的能力，其创新性地设计了渐进式评估框架，包括跨学科论文识别、跨学科想法整合和跨学科推荐三大任务。该基准的建立为理解LLMs在复杂科学发现中的潜力提供了重要方法论支撑，推动了AI辅助科研的前沿探索。

当前挑战

IDRBench面临双重挑战：在领域问题层面，需解决跨学科研究固有的知识整合难题，包括如何准确定义学科边界、量化知识融合程度，以及评估生成想法的创新性与可行性；在构建过程层面，面临专家标注的高成本与主观性问题，需要设计严谨的标注协议确保跨学科论文三元组的质量。此外，数据稀疏性挑战显著，arXiv平台中真实跨学科论文仅占15%，需采用分层抽样策略平衡正负样本。评估维度设计也极具挑战性，需同时考量语义相似性、内容创新性和学科跨度等多重指标，这对构建可靠的评估体系提出了严格要求。

常用场景

经典使用场景

IDRBench数据集在评估大型语言模型（LLMs）在跨学科研究（IDR）中的能力方面具有经典应用场景。通过提供专家标注的科学论文三元组数据集，IDRBench支持对LLMs在识别跨学科论文、整合跨学科研究思路以及推荐相关研究论文等任务中的表现进行系统评估。这一数据集特别适用于研究LLMs在多学科知识融合和科学发现中的潜力。

衍生相关工作

围绕IDRBench数据集已衍生出多项重要研究工作。例如Disciplink框架利用LLMs辅助研究人员寻找跨学科主题，Personaflow通过模拟专家角色增强跨学科研究构思。此外，类似SchNovel和IdeaBench等基准测试也在IDRBench的启发下，进一步探索了LLMs在科研创新中的潜力，推动了这一领域的研究发展。

数据集最近研究