GermanHealthcare1Retrieval-sample

Hugging Face2025-09-16 更新2025-09-17 收录

下载链接：

https://huggingface.co/datasets/mteb-private/GermanHealthcare1Retrieval-sample

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个德语医疗咨询检索评估的样本数据集，包含5个描述信息需求的查询，10个相应的文档和5个将查询与文档相关联的相关性判断。

This is a sample dataset for German medical consultation retrieval evaluation, containing 5 queries describing information needs, 10 corresponding documents, and 5 relevance judgments that associate queries with their relevant documents.

创建时间：

2025-09-12

原始信息汇总

GermanHealthcare1Retrieval-sample 数据集概述

数据集基本信息

语言：德语（de）
许可协议：other
多语言性：单语
任务类别：文本检索
任务ID：文档检索
标签：mteb, text, retrieval, sample

数据来源

标注创建方式：derived

数据集结构

配置1：corpus

特征：
- _id：字符串类型
- title：字符串类型
- text：字符串类型
分割：
- train：10个样本

配置2：default

特征：
- query-id：字符串类型
- corpus-id：字符串类型
- score：int64类型
分割：
- test：5个样本

配置3：queries

特征：
- _id：字符串类型
- text：字符串类型
分割：
- train：5个样本

领域

医疗（Medical）
咨询（Consultation）

数据集内容

5个描述信息需求的查询
10个对应文档
5个连接查询与文档的相关性判断

文件结构

corpus/corpus-00000-of-00001.parquet：包含_id、title、text字段的10个文档
queries/queries-00000-of-00001.parquet：包含_id、text字段的5个查询
data/test-00000-of-00001.parquet：包含query-id、corpus-id、score字段的5个相关性判断

用途

用于德语医疗咨询检索评估的样本数据集，遵循标准MTEB检索格式。

搜集汇总

数据集介绍

构建方式

在医疗咨询领域，GermanHealthcare1Retrieval-sample数据集通过派生方式构建，严格遵循MTEB检索评估框架的标准格式。其语料库包含10个结构化文档，每条记录均具备_id、标题和文本字段；查询集囊括5条信息需求，通过专业标注形成5组精准的相关性判断，确保数据质量与领域代表性。

特点

该数据集以德语医疗咨询为核心，呈现单语特性与高度专业化内容。其特点在于精简而完整的评估体系：5条查询与10篇文档构成检索任务基础，相关性评分采用整数标注机制，完美适配文档检索算法的性能验证。数据经过适度修改但仍保持原始语义结构与领域真实性。

使用方法

通过MTEB评估框架可高效调用该数据集：导入mteb库后获取GermanHealthcare1Retrieval任务实例，初始化评估器并加载待测嵌入模型。运行评估流程将自动匹配查询-文档对，生成检索效能指标，但需注意访问封闭数据集需提供合法身份凭证。

背景与挑战

背景概述

GermanHealthcare1Retrieval-sample数据集专注于德语医疗咨询检索领域，由专业研究机构基于实际医疗场景构建。该数据集采用标准MTEB检索格式，包含咨询文档、查询语句及相关性标注三元组结构，旨在推动医疗信息检索系统的性能评估。其设计反映了医疗领域对精准信息检索的迫切需求，为德语自然语言处理技术在医疗垂直领域的应用提供了重要基准。

当前挑战

医疗文档检索面临专业术语理解、语义匹配精度及多义词消歧等核心挑战，要求模型具备医疗领域知识推理能力。数据集构建过程中需处理医疗文本的敏感信息脱敏、专业术语标准化以及跨模态医疗数据的对齐问题，同时确保检索结果在临床场景中的实用性和可靠性。

常用场景

经典使用场景

在德语医疗信息检索领域，该数据集作为标准评估基准，主要用于测试嵌入模型在医疗咨询场景下的语义匹配能力。研究人员通过查询-文档相关性判断，系统评估模型对医学术语的理解精度和上下文关联性能，为德语自然语言处理研究提供关键实验数据。

实际应用

实际应用于德语区医疗机构的智能问诊系统，通过高效匹配患者描述症状与专业医疗文献，辅助医生进行初步诊断。在医疗知识库构建和患者自助服务场景中，该数据集训练的模型能准确理解非专业表述与专业术语间的语义关联，提升医疗信息服务的可及性和准确性。

衍生相关工作

基于该数据集衍生了多项医疗检索创新研究，包括结合生物医学实体识别的混合检索模型、针对德语复合词处理的特殊嵌入方法，以及跨语言医疗知识迁移框架。这些工作显著提升了德语医疗文本的检索效率，为欧洲多语言医疗信息系统建设提供了重要技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集