BIODSA-1K

Name: BIODSA-1K
Creator: 伊利诺伊大学厄巴纳-香槟分校
Published: 2025-05-22 09:02:21
License: 暂无描述

arXiv2025-05-22 更新2025-05-24 收录

下载链接：

https://ryanwangzf.github.io/projects/biodsa

下载链接

链接失效反馈

官方服务：

资源简介：

BIODSA-1K是一个用于评估人工智能代理在现实世界、数据驱动的生物医学假设验证任务上的性能的基准。该数据集包括1,029个以假设为中心的任务，每个任务配对1,177个分析计划，从超过300篇已发表的生物医学研究中精心挑选，以反映真实研究工作流程中的结构和推理。每个任务包括一个从原始研究的结论中得出的结构化假设，以肯定的形式表达，反映科学报告的语言，以及一个或多个基于实证数据表的支撑证据。该基准沿四个轴进行评估：假设决策的准确性、证据与结论的一致性、推理过程的正确性以及人工智能生成的分析代码的可执行性。重要的是，BIODSA-1K包括不可验证的假设：在现实世界科学中常见但未充分探索的场景，即现有数据不足以支持或反驳一个主张。我们提出BIODSA-1K作为构建和评估可推广、值得信赖的人工智能代理以进行生物医学发现的基础。

BIODSA-1K is a benchmark for evaluating the performance of AI Agents on real-world, data-driven biomedical hypothesis verification tasks. This dataset comprises 1,029 hypothesis-centric tasks, each paired with 1,177 analytical plans, curated from over 300 published biomedical studies to reflect the structure and reasoning inherent in real-world research workflows. Each task includes a structured hypothesis derived from the conclusions of original research, stated in affirmative form to mirror the language of scientific reports, alongside one or more pieces of supporting evidence grounded in empirical data tables. This benchmark is evaluated along four axes: accuracy of hypothesis-based decision-making, consistency between evidence and conclusions, correctness of reasoning processes, and executability of AI-generated analytical code. Notably, BIODSA-1K includes unverifiable hypotheses: scenarios common in real-world science but under-explored, where existing data are insufficient to either support or refute a claim. We present BIODSA-1K as a foundational resource for building and evaluating generalizable, trustworthy AI Agents for biomedical discovery.

提供机构：

伊利诺伊大学厄巴纳-香槟分校

创建时间：

2025-05-22

原始信息汇总

BioDSA-1K 数据集概述

基本信息

数据集名称: BioDSA-1K: Benchmarking Data Science Agents for Biomedical Research
作者: Zifeng Wang1,2,, Benjamin Danek1,2,, Jimeng Sun1,2 (*Equal contribution)
机构:
- 1University of Illinois Urbana-Champaign
- 2Keiji.AI
论文: (coming soon)
代码: 🤗
数据集: 可用

摘要

BioDSA-1K 是一个用于评估AI代理在真实、数据驱动的生物医学假设验证任务上的基准。该基准包含：

任务数量: 1,029个以假设为中心的任务
分析计划: 1,177个
来源: 300多项已发表的生物医学研究
特点:
- 反映真实研究工作的结构和推理
- 包含结构化假设和基于实证数据表的支持证据
- 包含不可验证的假设（数据不足以支持或反驳的情况）

评估维度

假设决策准确性
证据与结论的一致性
推理过程的正确性
AI生成分析代码的可执行性

数据集统计

研究类型: 来自329种出版物
数据表多样性: 展示不同大小的生物医学数据表（行数和列数的对数尺度）

示例

数据集包含从已发表的生物医学研究中提取的假设和分析示例，例如：

示例1: Grommes, 2024
示例2: McIntyre, 2024
示例3: Jee, 2024

具体示例

PMID: 38995739
- 标题: "A Phase II Study Assessing Long-term Response to Ibrutinib Monotherapy in Recurrent or Refractory CNS Lymphoma."
- 假设:
  - Ibrutinib单药治疗在复发性或难治性原发性中枢神经系统淋巴瘤（PCNSL）患者中有效。
  - TBL1XR1突变与PCNSL患者对Ibrutinib的长期反应相关。
  - 脑脊液中ctDNA的清除与Ibrutinib的完全和长期反应相关。
PMID: 39214094
- 标题: "Distinct clinical outcomes and biological features of specific KRAS mutants in human pancreatic cancer."
- 假设:
  - KRASG12R突变与KRASG12D突变相比，PDAC患者的生存率更高。
  - KRASG12R突变在早期（I期）PDAC中富集。
  - KRASG12R肿瘤比KRASG12D肿瘤具有更高的淋巴结阴性率。
  - KRASG12D肿瘤表现出更强的上皮-间质转化（EMT）。
  - KRASG12R肿瘤显示更高的核因子κB（NF-κB）信号传导。
PMID: 39506116
- 标题: "Automated real-world data integration improves cancer outcome prediction."
- 假设:
  - 包含自然语言处理特征的模型在预测总生存期方面优于仅基于基因组数据或分期的模型。
  - SETD2突变与免疫治疗治疗的肺腺癌中较低的转移潜能相关。

基准测试结果

假设验证:
- AI代理在假设验证中趋于保守，漏检率高于假阳性率。
- 增强推理的ReAct和CodeGen模型优于其基础版本，ReAct方法在复杂领域（如基因组学）表现更佳。
不可验证假设:
- CodeGen方法在生成不可执行代码时有时会错误地假设假设为真或假。
- 对于不可验证的假设，ReAct方法更可能做出正确决策。

引用

bibtex @article{wang2025biodsa, title = {BioDSA-1K: Benchmarking Data Science Agents for Biomedical Research}, author = {Wang, Zifeng and Danek, Benjamin and Sun, Jimeng}, year = {2025}, }

搜集汇总

数据集介绍

构建方式

BIODSA-1K数据集的构建基于329篇已发表的生物医学研究论文，通过系统性提取科学假设及其支持证据，形成1029个假设中心任务和1177个分析计划。数据集的核心组成部分包括结构化假设、支持证据、分析计划以及定量结果测量，这些元素均源自真实的研究工作流程。数据集的构建过程涉及从cBioPortal获取癌症基因组学和临床数据，并通过PubMed API收集相关论文摘要，确保数据与发表的研究成果紧密关联。此外，数据集还包含了非可验证假设，以反映真实科学研究中数据不足的常见情况。

特点

BIODSA-1K数据集的特点在于其多样性和复杂性，涵盖了基因组学、分子生物学、治疗学、生物标志物等多个生物医学研究领域。数据集中的每个假设均以肯定形式呈现，并附带一个或多个基于实证数据表的支持证据。此外，数据集还包含了非可验证假设，以评估AI代理在数据不足情况下的判断能力。BIODSA-1K的另一个显著特点是其数据表的多样性和高维度，涵盖了从临床数据到基因表达等多种数据类型，为AI代理提供了丰富的分析场景。

使用方法

BIODSA-1K数据集的使用方法主要包括假设验证任务，AI代理需要根据提供的假设和数据集生成可执行代码，并通过分析数据得出假设的真伪或非可验证性。评估维度包括假设决策准确性、证据与结论的一致性、推理过程的正确性以及生成代码的可执行性。研究人员可以通过下载cBioPortal的原始数据，在本地执行AI代理生成的代码，以验证其分析结果的可靠性。此外，数据集还支持对AI代理在多步骤推理和动态计划调整方面的能力进行评估。

背景与挑战

背景概述

BIODSA-1K是由伊利诺伊大学厄巴纳-香槟分校的Zifeng Wang、Benjamin Danek和Jimeng Sun等研究人员于2025年提出的一个基准数据集，旨在评估人工智能代理在生物医学研究中进行数据驱动假设验证任务的能力。该数据集包含1,029个以假设为中心的任务和1,177个分析计划，这些任务和分析计划来源于300多篇已发表的生物医学研究论文，反映了真实研究工作中的结构和推理过程。BIODSA-1K的创建填补了生物医学领域中缺乏全面、多样化基准数据集的空白，为开发可推广、可信赖的AI代理提供了重要基础。

当前挑战

BIODSA-1K面临的挑战主要包括两个方面：1) 在领域问题方面，数据集旨在解决生物医学研究中假设验证的复杂性，包括处理真实世界数据的分析难度和证据解释的不确定性；2) 在构建过程中，研究人员需要从大量已发表的研究中提取结构化假设和支持证据，确保这些假设可以通过标准的统计或机器学习方法进行测试，同时还要处理数据不足或不足以支持某些假设的情况。此外，数据集还需要涵盖多样化的生物医学研究类型和分析方法，以确保其广泛性和代表性。

常用场景

经典使用场景

BIODSA-1K数据集在生物医学研究中被广泛用于评估AI代理在数据驱动假设验证任务中的表现。其经典使用场景包括模拟真实研究流程，从假设提出到数据分析再到结论验证的全过程。通过提供结构化的假设和配套的分析计划，该数据集能够全面测试AI代理在生物医学数据科学任务中的能力，特别是在处理复杂、多维度的生物医学数据时。

衍生相关工作

围绕BIODSA-1K数据集，已衍生出多项经典研究工作。例如，基于该数据集的CodeGen和ReAct代理框架在假设验证任务中展示了不同的性能特点。此外，研究者还开发了结合结构化推理的增强型代理，如CodeGen-Reasoning和ReAct-Reasoning，进一步提高了在复杂生物医学任务中的表现。这些工作不仅推动了AI在生物医学数据科学中的应用，也为开发更通用的科学发现代理提供了重要参考。

数据集最近研究