MedBrowseComp

Hugging Face2025-05-22 更新2025-05-23 收录

下载链接：

https://huggingface.co/datasets/AIM-Harvard/MedBrowseComp

下载链接

链接失效反馈

官方服务：

资源简介：

MedBrowseComp数据集是一个面向医疗信息搜索的深度研究和计算机使用任务的数据集。该数据集包含三个协调一致的数据集：MedBrowseComp_50，包含50个医疗条目用于浏览和比较；MedBrowseComp_605，包含605个医疗条目的全面集合；MedBrowseComp_CUA，一个用于比较和分析的精选医疗数据集。这些数据集可以用于各种医疗文本处理任务、信息检索和比较分析。

The MedBrowseComp dataset is a resource developed for in-depth research and computer-based tasks pertaining to medical information search. It includes three coordinated sub-datasets: MedBrowseComp_50, which contains 50 medical entries for browsing and comparison purposes; MedBrowseComp_605, a comprehensive collection of 605 medical entries; and MedBrowseComp_CUA, a curated medical dataset intended for comparative and analytical studies. These datasets can be utilized across a wide range of medical text processing tasks, information retrieval applications, and comparative analysis work.

创建时间：

2025-05-14

原始信息汇总

MedBrowseComp 数据集概述

基本信息

语言: 英语 (en)
名称: MedBrowseComp: Medical Browsing and Comparison Dataset
标签: 医学 (medical), 医疗保健 (healthcare), 浏览 (browsing), 比较 (comparison)
许可证: Apache 2.0 (apache-2.0)
任务类别: 问答 (question-answering), 文本检索 (text-retrieval)

数据集配置

默认配置 (default):
- 数据文件:
  - MedBrowseComp_50: MedBrowseComp_50.csv
  - MedBrowseComp_605: MedBrowseComp_605.csv
  - MedBrowseComp_CUA: MedBrowseComp_CUA.csv

数据集内容

MedBrowseComp_50: 50 条医学条目，用于浏览和比较。
MedBrowseComp_605: 605 条医学条目，内容全面。
MedBrowseComp_CUA: 精选医学数据，用于比较和分析。

用途

医学文本处理任务
信息检索
比较分析

加载方式

python from datasets import load_dataset

dataset = load_dataset("AIM-Harvard/MedBrowseComp")

med50_data = dataset["MedBrowseComp_50"] med605_data = dataset["MedBrowseComp_605"] cua_data = dataset["MedBrowseComp_CUA"]

引用

引用链接: https://arxiv.org/abs/2505.14963
BibTeX: bibtex @misc{chen2025medbrowsecompbenchmarkingmedicaldeep, title={MedBrowseComp: Benchmarking Medical Deep Research and Computer Use}, author={Shan Chen and Pedro Moreira and Yuxin Xiao and Sam Schmidgall and Jeremy Warner and Hugo Aerts and Thomas Hartvigsen and Jack Gallifant and Danielle S. Bitterman}, year={2025}, eprint={2505.14963}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.14963}, }

相关资源

GitHub 仓库: https://github.com/MedBrowseComp

搜集汇总

数据集介绍

构建方式

在医疗信息检索领域，MedBrowseComp数据集通过系统整合三个子集构建而成。MedBrowseComp_50包含50条医疗条目作为基础样本，MedBrowseComp_605扩展至605条条目形成全面覆盖，MedBrowseComp_CUA则专门针对对比分析需求进行精心筛选。所有数据均采用标准化格式存储于CSV文件，确保数据结构的一致性与可复用性。

使用方法

研究者可通过Hugging Face平台直接加载数据集整体或指定子集，利用标准接口实现医疗文本的检索与对比分析。典型应用流程包括初始化数据集对象后，分别调用MedBrowseComp_50、MedBrowseComp_605和MedBrowseComp_CUA三个键值获取对应数据。这种模块化设计支持灵活的实验配置，适用于医疗问答系统训练、信息检索模型评估等多元场景。

背景与挑战

背景概述

随着医疗信息技术的迅猛发展，精准获取和比较医学数据成为临床决策支持系统的关键需求。MedBrowseComp数据集由哈佛大学等研究机构于2025年创建，聚焦于医疗信息深度检索与计算机辅助分析的核心问题。该数据集通过结构化医疗条目构建，为自然语言处理技术在医疗领域的应用提供了重要基准，显著推动了临床问答系统和医学文本检索技术的发展。

当前挑战

在医疗信息检索领域，如何实现跨源医学数据的精准对齐与语义一致性是核心难题。数据集构建过程中面临医疗术语标准化挑战，需协调不同医疗机构的数据格式差异。同时，医学文本的复杂语义结构和专业术语嵌套，对信息抽取模型的领域适应性提出更高要求。多源数据整合时还需平衡数据规模与标注质量，确保临床实用价值。

常用场景

经典使用场景

在医疗信息检索领域，MedBrowseComp数据集为深度研究任务提供了结构化支持。该数据集通过包含605个医疗条目的综合集合，支持多维度信息浏览与对比分析，典型应用于构建智能医疗检索系统，帮助研究人员模拟真实临床场景中的信息筛选过程。其分层设计便于评估检索算法在复杂医疗查询中的表现，为医疗文本理解任务奠定数据基础。

解决学术问题

该数据集有效解决了医疗自然语言处理中深度研究任务评估标准缺失的学术难题。通过提供标准化的医疗信息浏览与比较基准，填补了传统问答系统在复杂信息需求场景下的评估空白。其构建的医疗计算机使用任务框架，为衡量模型在真实医疗决策支持中的性能提供了科学依据，推动了医疗人工智能领域评估范式的革新。

实际应用

在临床决策支持系统中，MedBrowseComp数据集展现出重要应用价值。医疗机构可基于该数据集开发智能信息检索工具，辅助医生快速比对不同治疗方案的相关文献。其精心设计的医疗条目结构能够支撑患者病历分析、药物比较等实际医疗场景，为构建下一代医疗信息平台提供了可靠的数据支撑。

数据集最近研究