EnglishHealthcare1Retrieval-sample

Hugging Face2025-09-16 更新2025-09-17 收录

下载链接：

https://huggingface.co/datasets/mteb-private/EnglishHealthcare1Retrieval-sample

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于医学研究检索评估的样本数据集。它包含6个描述信息需求的查询、10个相应的文档以及6个连接查询和文档的相关性判断。数据集遵循MTEB检索格式，并且数据经过了轻微修改以保持原始结构和意义。

创建时间：

2025-09-12

原始信息汇总

EnglishHealthcare1Retrieval-sample 数据集概述

数据集基本信息

语言：英语
许可协议：cc-by-4.0
多语言性：单语
任务类别：文本检索
任务ID：文档检索
标签：mteb、text、retrieval、sample

数据配置与结构

配置1：corpus

文件路径：corpus/train-*
特征字段：
- _id：字符串类型
- title：字符串类型
- text：字符串类型
数据量：10个样本

配置2：default

文件路径：data/test-*
特征字段：
- query-id：字符串类型
- corpus-id：字符串类型
- score：int64类型
数据量：6个样本

配置3：queries

文件路径：queries/train-*
特征字段：
- _id：字符串类型
- text：字符串类型
数据量：6个样本

领域范围

医学领域
学术领域

数据集用途

用于医学研究检索评估的样本数据集，遵循标准MTEB检索格式

数据内容

6个描述信息需求的查询
10个对应文档
6个连接查询与文档的相关性判断

使用说明

可通过MTEB框架加载该数据集进行嵌入模型评估，需要提供huggingface令牌访问此封闭数据集

搜集汇总

数据集介绍

构建方式

在医疗信息检索领域，EnglishHealthcare1Retrieval-sample数据集通过派生方式构建，遵循MTEB检索评估标准格式。该数据集包含三个核心组件：语料库文档、查询语句及相关性判定，分别以parquet格式存储。语料库收录10篇医学文献，每篇包含唯一标识符、标题和正文；查询部分包含6条信息需求描述；相关性文件则精确标注了查询-文档对的匹配程度，采用整数评分体系。

特点

该数据集专为医学学术文本检索设计，具有高度结构化特征。其单语性（英语）和领域特异性（医疗学术）确保了评估任务的专业性。数据集规模虽为样本级别，但完整保留了原始数据结构和语义关系，包含6条查询、10篇文档及6组相关性判定，为模型提供精准的评估框架。采用CC-BY-4.0许可协议，保障了学术使用的开放性。

使用方法

使用者可通过MTEB评估框架便捷调用该数据集进行嵌入模型性能验证。具体流程包括：通过mteb.get_task方法加载任务实例，初始化评估器后传入自定义模型。评估过程将自动匹配查询与文档的嵌入表示，并依据预设的相关性评分计算检索效果指标。需要注意的是，实际操作需提供HuggingFace认证令牌以访问受保护数据集资源。

背景与挑战

背景概述

EnglishHealthcare1Retrieval-sample数据集作为医学信息检索领域的评估基准，由研究机构基于MTEB框架构建，专注于医疗学术文献的精准检索任务。该数据集通过精心设计的查询-文档对结构，旨在推动医疗信息检索技术的发展，为临床决策支持和医学研究提供可靠的数据基础。其标准化评估框架显著提升了检索模型在专业医疗领域的性能可比性，对促进医疗人工智能应用具有重要价值。

当前挑战

该数据集主要应对医疗专业文本检索中术语复杂性高、语义理解难度大的核心挑战，要求模型准确捕捉医学术语的细微差别和上下文关联。构建过程中面临医疗数据敏感性带来的匿名化处理难题，同时需要确保检索标注的医学准确性，这要求领域专家深度参与标注验证工作。样本规模限制也增加了构建具有统计显著性评估基准的难度。

常用场景

经典使用场景

在医疗信息检索领域，该数据集作为标准化评估基准，专门用于测试嵌入模型在医学文献检索任务中的性能表现。研究人员通过查询-文档匹配机制，评估模型对医学术语语义理解能力及相关性排序精度，为医疗文本检索系统提供核心验证工具。

衍生相关工作

基于该数据集衍生的经典工作包括多模态医疗检索模型、生物医学BERT变体的性能评估，以及跨语言医疗检索系统的开发。这些研究不仅扩展了数据集的应用维度，还为医疗自然语言处理领域建立了新的性能基准与评估范式。

数据集最近研究