C-MTEB/CmedqaRetrieval

Name: C-MTEB/CmedqaRetrieval
Creator: C-MTEB
Published: 2023-07-28 09:40:17
License: 暂无描述

Hugging Face2023-07-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/C-MTEB/CmedqaRetrieval

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: corpus path: data/corpus-* - split: queries path: data/queries-* dataset_info: features: - name: id dtype: string - name: text dtype: string splits: - name: corpus num_bytes: 84962605 num_examples: 100001 - name: queries num_bytes: 728106 num_examples: 3999 download_size: 61319407 dataset_size: 85690711 --- # Dataset Card for "CmedqaRetrieval" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项： - 配置名称：default 数据文件： - 数据集划分：corpus（语料库）路径：data/corpus-* - 数据集划分：queries（查询集）路径：data/queries-* 数据集信息：特征： - 名称：id 数据类型：字符串（string） - 名称：text 数据类型：字符串（string）数据集划分： - 名称：corpus（语料库）字节数：84962605 样本数量：100001 - 名称：queries（查询集）字节数：728106 样本数量：3999 下载大小：61319407 数据集总大小：85690711 --- # 「CmedqaRetrieval」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

C-MTEB

原始信息汇总

数据集概述

配置信息

默认配置 (config_name: default)
- 数据文件路径
  - corpus 分片: data/corpus-*
  - queries 分片: data/queries-*

数据集信息

特征 (Features)
- id
  - 数据类型: 字符串 (dtype: string)
- text
  - 数据类型: 字符串 (dtype: string)
分片信息 (Splits)
- corpus
  - 字节数: 84962605
  - 示例数: 100001
- queries
  - 字节数: 728106
  - 示例数: 3999
下载大小 (download_size): 61319407
数据集大小 (dataset_size): 85690711

搜集汇总

数据集介绍

构建方式

在中文医疗信息检索领域，CmedqaRetrieval数据集的构建体现了对专业性与实用性的双重追求。该数据集通过精心筛选与整理，收录了十万余条医疗相关文本作为语料库，并配备了近四千条查询语句。构建过程中，数据来源经过严格甄别，确保文本内容的准确性与权威性，同时采用标准化的分割方式，将语料与查询分别归档，为后续的检索任务奠定了结构化基础。

特点

CmedqaRetrieval数据集展现出鲜明的领域专属性与规模优势。其语料库涵盖广泛的医疗主题，文本内容兼具专业深度与语言多样性，能够有效模拟真实世界的医疗咨询场景。查询语句设计精炼，直接针对用户可能提出的健康问题，与语料库形成高度相关的检索对。数据规模适中，既保证了模型训练的充分性，又避免了过度冗余，为中文医疗文本检索研究提供了高质量基准。

使用方法

该数据集主要用于评估中文医疗文本检索模型的性能。使用者可加载语料库与查询集，通过计算查询与语料文本之间的语义相似度，执行检索任务。典型的应用流程包括嵌入表示生成、相似度匹配以及结果排序，最终依据标准信息检索指标进行评估。数据集结构清晰，便于集成到现有检索框架中，助力研究人员探索医疗领域的语义理解与匹配技术。

背景与挑战

背景概述

在医疗信息检索领域，高质量的中文医学问答数据集对于推动自然语言处理技术的临床应用至关重要。C-MTEB/CmedqaRetrieval数据集由C-MTEB团队构建，专注于中文医学问答检索任务，旨在解决医学知识库中精准信息匹配的难题。该数据集通过整合大量医学文献与患者咨询文本，为研究者提供了评估检索模型在真实医疗场景下性能的基准，显著促进了跨语言医学信息检索技术的发展，并为智能医疗辅助系统的优化奠定了数据基础。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，医学文本的专业性与复杂性要求检索模型具备深度的语义理解能力，以准确区分相似病症描述或医学术语，避免误检导致临床决策风险；在构建过程中，数据收集需克服医学隐私保护与标注标准统一的困难，同时确保语料来源的权威性与时效性，以反映不断更新的医学知识，这增加了数据清洗与验证的复杂度。

常用场景

经典使用场景

在中文医疗信息检索领域，C-MTEB/CmedqaRetrieval数据集为评估文本嵌入模型提供了标准化基准。该数据集包含十万余条医疗语料库文档和近四千条查询语句，其经典使用场景聚焦于模拟真实医疗问答环境下的文档检索任务。研究者通过该数据集能够系统测试模型从海量医学文献中精准定位相关信息的能力，从而优化检索算法的准确性与效率。

衍生相关工作

围绕该数据集衍生的经典工作包括医疗BERT的领域微调框架和层次化检索架构研究。众多学者利用该数据集提出了融合医学本体知识的双编码器模型，推动了MedCPM、华佗GPT等中文医疗大语言模型的检索模块优化。这些工作进一步拓展至多轮对话检索和跨语言医疗知识对齐等前沿方向，形成了完整的医疗检索技术生态链。

数据集最近研究