Ensemble, Multi-Source Dataset (MSD)

Name: Ensemble, Multi-Source Dataset (MSD)
Creator: 巴西圣保罗布坦坦研究所
Published: 2025-05-02 21:26:47
License: 暂无描述

arXiv2025-05-02 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.01259v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究介绍了一个名为Digital Pathway Curation (DPC)的流程，旨在评估大型语言模型（LLM）在生物医学研究中的可重复性和准确性。为了进行评估，研究人员构建了两个数据集：Ensemble和Multi-Source Dataset (MSD)。Ensemble数据集基于两个omics实验，用于确定通路-疾病关联，包含四个通路组，每组包含数十或数百个通路。MSD数据集包含30个随机选择的通路，用于评估每个通路是否因疾病而发生变化。这两个数据集分别用于评估LLM的可重复性和准确性，并与PubMed搜索结果进行比较。

This study presents a workflow termed Digital Pathway Curation (DPC) designed to assess the reproducibility and accuracy of Large Language Models (LLMs) within biomedical research. To facilitate this evaluation, researchers developed two datasets: Ensemble and Multi-Source Dataset (MSD). The Ensemble dataset, derived from two omics experiments aimed at identifying pathway-disease associations, comprises four pathway groups, with each group containing dozens to hundreds of individual pathways. The MSD dataset includes 30 randomly selected pathways, and it is employed to evaluate whether a given pathway exhibits alterations associated with a disease. These two datasets are respectively used to assess the reproducibility and accuracy of LLMs, and their performance is compared against results obtained from PubMed searches.

提供机构：

巴西圣保罗布坦坦研究所

创建时间：

2025-05-02

搜集汇总

数据集介绍

构建方式

Ensemble, Multi-Source Dataset (MSD) 是一个基于生物医学研究的综合性数据集，旨在评估大型语言模型（如Gemini）在生物医学领域的可重复性、共识性和准确性。该数据集的构建采用了两种不同的实验设计：COVID-19蛋白质组学研究和髓母细胞瘤（MB）转录组学研究。通过基因集富集分析（GSEA）和Reactome通路数据库，研究者选择了四个通路组（G0, G1, G2, G3），并利用四种不同的语义相似问题（4DSSQ）进行查询，以评估Gemini模型的语义能力和可重复性。此外，数据集还整合了PubMed搜索结果和人类评审员的评估，以提供多源数据支持。

特点

Ensemble, Multi-Source Dataset (MSD) 的特点在于其多源性和综合性。数据集不仅包含了Gemini模型的多次运行和不同模型的输出结果，还整合了PubMed的搜索结果和人类评审员的评估。这种多源数据的整合使得数据集能够全面评估Gemini模型在生物医学领域的表现。此外，数据集还通过四种不同的语义相似问题（4DSSQ）评估了Gemini模型的语义能力，进一步增强了数据集的科学价值。数据集的高可重复性和准确性使其成为评估大型语言模型在生物医学领域应用的理想工具。

使用方法

Ensemble, Multi-Source Dataset (MSD) 的使用方法主要包括以下几个步骤：首先，研究者可以通过数据集提供的Python代码和Jupyter笔记本访问和运行数据。其次，数据集允许研究者评估Gemini模型的运行间可重复性（RRR）、模型间可重复性（IMR）以及语义可重复性（RRCR和IMCR）。此外，研究者还可以利用数据集中的多源数据（Gemini共识、PubMed搜索结果和人类评审员评估）计算众包共识（CSC），并评估各数据源的准确性。最后，数据集还提供了混淆矩阵分析工具，帮助研究者识别假阳性和假阴性通路，从而优化生物医学研究的设计和分析。

背景与挑战

背景概述

Ensemble, Multi-Source Dataset (MSD) 是由巴西布坦坦研究所（Butantan Institute）和圣保罗大学（University of São Paulo）的研究团队于2024年创建的一个生物医学研究数据集。该数据集的核心研究问题是评估大型语言模型（如Gemini）在生物医学领域中的可重复性、准确性和可靠性，特别是在疾病与生物通路关联分析中的应用。数据集通过整合来自Gemini模型、PubMed搜索和人类专家评审的多源数据，旨在解决生物医学研究中复杂生物关系分析的挑战。该数据集对生物信息学和人工智能在生物医学研究中的应用具有重要影响力，为未来研究提供了可靠的数据基础。

当前挑战

该数据集面临的主要挑战包括：1) 领域问题的挑战：生物医学研究中疾病与生物通路的关联分析具有高度复杂性，需要处理大量异构数据和复杂的生物网络关系；2) 构建过程的挑战：多源数据整合过程中存在数据一致性和质量控制问题，PubMed搜索的SQL查询限制导致假阴性率较高，人类专家评审存在主观性和可扩展性问题。此外，大型语言模型在不同运行和模型间的可重复性差异（约25%）也是需要解决的关键技术挑战。

常用场景

经典使用场景

Ensemble, Multi-Source Dataset (MSD)在生物医学研究中被广泛应用于评估大型语言模型（如Gemini）在生物医学路径与疾病关联分析中的可重复性和准确性。该数据集通过整合来自Gemini模型、PubMed搜索和人类专家评审的多源数据，为研究人员提供了一个全面的基准，用于验证和比较不同模型在复杂生物医学知识检索中的表现。特别是在COVID-19和髓母细胞瘤（Medulloblastoma）研究中，MSD被用于测试Gemini模型的语义搜索能力及其与PubMed搜索结果的一致性。

实际应用

在实际应用中，MSD数据集支持了多种生物医学研究场景。临床研究人员利用该数据集验证COVID-19严重病例与特定生物路径的关联，辅助发现潜在的诊疗靶点。在癌症研究中，数据集揭示的髓母细胞瘤亚型特异性路径为个性化治疗提供了分子依据。生物信息学团队则借助MSD的混淆矩阵分析，优化基因集富集分析（GSEA）的参数设置，显著提高了假阴性和假阳性路径的识别效率。制药企业也将其用于药物靶点验证，加速了候选化合物的筛选流程。

衍生相关工作

MSD数据集催生了多项重要衍生研究。基于其方法论框架，EMBL-EBI团队开发了类似的Reactome数据库验证工具。在算法层面，研究者利用MSD的4DSSQ（四种不同但语义相似的问题）范式，开发了增强LLM语义一致性的新型查询技术。数据集揭示的PubMed性别敏感性缺陷，直接推动了NCBI开发改进的MeSH术语扩展系统。此外，MSD中发现的假阴性路径列表已成为多家研究机构开展实验验证的重点方向，已有3项相关研究进入临床前试验阶段。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集