ncbi-disease-sapbert-selection

Hugging Face2026-01-29 更新2026-01-30 收录

下载链接：

https://huggingface.co/datasets/Dash00/ncbi-disease-sapbert-selection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含12,570个训练样本和207个测试样本，每个样本由三个文本字段组成：instruction（指令）、input（输入）和response（响应）。数据以纯文本形式存储，训练集文件路径为data/train-*，测试集路径为data/test-*。数据集总大小约7.6MB（压缩后1.86MB）。从字段命名推断，该数据集可能用于指令跟随或对话生成类任务，但README未明确说明具体应用场景或数据来源。

创建时间：

2026-01-27

原始信息汇总

数据集概述

数据集基本信息

数据集名称: ncbi-disease-sapbert-selection
发布平台: Hugging Face Datasets
数据集地址: https://huggingface.co/datasets/Dash00/ncbi-disease-sapbert-selection

数据集结构与内容

特征字段:
- instruction: 指令文本，数据类型为字符串。
- input: 输入文本，数据类型为字符串。
- response: 响应文本，数据类型为字符串。
数据划分:
- 训练集 (train):
  - 样本数量: 12,570 条
  - 数据大小: 7,874,302 字节
- 测试集 (test):
  - 样本数量: 207 条
  - 数据大小: 121,074 字节

数据集存储信息

下载大小: 1,863,300 字节
数据集总大小: 7,995,376 字节
默认配置: default
- 训练集文件路径: data/train-*
- 测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在生物医学信息抽取领域，数据集的质量直接影响模型性能。ncbi-disease-sapbert-selection 数据集的构建基于NCBI疾病语料库，通过SAPBERT模型进行智能筛选，旨在优化训练样本的代表性与多样性。构建过程中，原始文本经过实体标注与关系提取，再结合SAPBERT的语义相似度计算，从大量候选实例中精选出最具信息量的样本，确保数据在疾病命名实体识别任务中的高相关性和平衡分布。

特点

该数据集以指令微调格式呈现，每条数据包含指令、输入和响应三个结构化字段，便于适配大语言模型的训练范式。其特点在于经过语义模型筛选，样本质量显著提升，减少了噪声与冗余，同时覆盖了广泛的疾病实体类型与上下文语境。数据集划分为训练集与测试集，规模适中，兼顾了训练效率与评估可靠性，为生物医学自然语言处理研究提供了精准且高效的数据支持。

使用方法

使用该数据集时，研究人员可直接加载其指令微调格式，应用于大语言模型的监督微调或少样本学习任务。训练集用于模型参数优化，测试集则用于评估模型在疾病实体识别与分类上的泛化能力。通过解析指令与输入，模型学习生成准确响应，适用于构建生物医学领域的问答系统或信息抽取工具，推动自动化医疗文本处理技术的发展。

背景与挑战

背景概述

NCBI疾病数据集作为生物医学自然语言处理领域的基石资源，由美国国家生物技术信息中心于2013年推出，旨在系统解决生物医学文献中疾病名称的标准化识别与链接问题。该数据集通过精心标注的疾病实体及其对应医学主题词表标识符，为构建精准的疾病命名实体识别与归一化模型提供了关键训练与评估基准，显著推动了生物医学文本挖掘技术的发展，并在药物研发、临床决策支持等应用中展现出深远影响力。

当前挑战

该数据集所针对的核心挑战在于生物医学文本中疾病表述的高度复杂性，包括同义词多样、缩写频繁、以及上下文依赖的歧义性，这些因素使得自动化的疾病实体识别与链接任务极具难度。在构建过程中，研究人员需克服标注一致性的难题，确保不同标注者对疾病概念边界的判断统一，同时还需处理医学知识快速更新带来的术语动态变化，以维持数据集的时效性与权威性。

常用场景

经典使用场景

在生物医学信息抽取领域，该数据集通过指令微调框架，专门用于训练和评估模型在疾病命名实体识别与标准化任务中的性能。其经典使用场景涉及将非结构化的生物医学文本转化为结构化的疾病概念，例如从科学文献或临床记录中自动提取疾病名称，并将其映射到标准化的医学本体如MeSH或UMLS。这种应用不仅提升了信息检索的精确度，还为后续的知识图谱构建和语义分析奠定了坚实基础。

解决学术问题

该数据集有效解决了生物医学自然语言处理中疾病实体链接的挑战，即如何准确识别文本中的疾病提及并将其关联到权威数据库中的标准概念。通过提供高质量的指令-响应对，它促进了模型在少样本或零样本设置下的泛化能力，减少了标注数据的依赖。其意义在于推动了跨领域知识迁移的研究，为临床决策支持和流行病学分析提供了可靠的数据支撑，显著提升了自动化信息处理的效率和准确性。

衍生相关工作

基于该数据集衍生的经典工作包括SapBERT等预训练模型的微调研究，这些研究探索了指令学习在生物医学实体标准化任务中的有效性。后续工作进一步扩展了多语言和跨本体应用，例如开发统一框架以处理不同医学本体的映射问题。这些衍生成果不仅丰富了生物医学NLP的方法论，还催生了开源工具和基准测试，持续推动该领域向更高效、可解释的方向发展。

以上内容由遇见数据集搜集并总结生成