distemist
收藏Hugging Face2026-02-07 更新2026-02-09 收录
下载链接:
https://huggingface.co/datasets/IIC/distemist
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含510个训练样本、90个验证样本和150个测试样本,总大小约7MB。数据特征包括原始文本(text)、分词序列(tokens)以及疾病实体识别标注(ner_tags),其中ner_tags采用BIO标注体系标注疾病实体(B-ENFERMEDAD表示疾病开始,I-ENFERMEDAD表示疾病延续,O表示非疾病词)。数据集以文本序列形式存储,适用于西班牙语医疗命名实体识别任务。
提供机构:
Instituto de Ingeniería del Conocimiento
创建时间:
2026-02-07
搜集汇总
数据集介绍

构建方式
在生物医学信息抽取领域,DISTEMIST数据集的构建体现了对西班牙语临床文本中疾病实体识别的系统性探索。该数据集源自真实的临床记录,通过专家标注流程,将文本转化为包含原始文本、分词序列及对应命名实体标签的结构化数据。构建过程中,标注者严格遵循BIO标注方案,区分疾病实体的起始与内部成分,确保了标注的一致性与准确性,为后续模型训练提供了高质量的基础。
使用方法
使用DISTEMIST数据集时,研究人员可将其加载为标准的序列标注数据集,适用于训练和评估命名实体识别模型,特别是在西班牙语临床文本分析场景。数据集已预先分割为训练集、验证集和测试集,用户可直接利用这些划分进行模型训练、调优和测试,重点关注疾病实体的检测与分类。通过整合文本与对应的实体标签序列,该数据集支持端到端的深度学习流程,助力提升跨语言生物医学信息系统的性能。
背景与挑战
背景概述
Distemist数据集聚焦于生物医学文本挖掘领域,专为西班牙语临床文本中的疾病实体识别任务而设计。该数据集由西班牙国家生物信息学研究所等机构于2022年发布,旨在应对非英语生物医学文本资源相对匮乏的现状。其核心研究问题在于从临床叙述中自动识别疾病相关术语,为构建跨语言医疗信息提取系统提供关键支持,对提升西班牙语地区医疗数据智能化处理能力具有重要推动作用。
当前挑战
该数据集主要挑战体现在两方面:在领域问题层面,临床文本中疾病表述具有高度多样性,包括缩写、同义词及复杂嵌套结构,准确界定实体边界与类型面临困难;在构建过程中,西班牙语临床数据的隐私保护要求严格,需进行专业脱敏处理,同时标注工作依赖医学专家知识,成本高昂且一致性维护不易,这些因素共同增加了数据集构建与应用的复杂度。
常用场景
经典使用场景
在生物医学信息学领域,DISTEMIST数据集专为西班牙语临床文本中的疾病实体识别任务而设计。该数据集通过标注文本中的疾病名称,为自然语言处理模型提供了训练和评估的基准。研究者通常利用它来开发命名实体识别系统,以自动提取临床文档中的关键疾病信息,从而支持医疗数据的结构化处理。
解决学术问题
DISTEMIST数据集解决了西班牙语临床文本中疾病实体识别缺乏标准化资源的问题。它促进了跨语言医学信息提取研究,填补了非英语语种数据集的空白。通过提供精确的标注,该数据集帮助学术界评估和改进实体识别算法的性能,推动了生物医学自然语言处理技术的发展,并为多语言医疗人工智能应用奠定了基础。
实际应用
在实际医疗场景中,DISTEMIST数据集可用于构建自动化临床信息提取工具,辅助医生快速从电子健康记录中识别疾病术语。这些工具能够提升医疗数据管理的效率,支持流行病学监测和临床决策系统。此外,它还可集成到医疗聊天机器人或诊断辅助系统中,增强西班牙语地区的医疗服务质量。
数据集最近研究
最新研究方向
在生物医学自然语言处理领域,DISTEMIST数据集聚焦于西班牙语临床文本中的疾病实体识别,为跨语言医疗信息提取提供了关键资源。当前研究前沿集中于利用预训练语言模型如BERT的变体进行迁移学习,以提升低资源语言环境下的命名实体识别性能。热点事件涉及多模态医疗数据融合与真实世界证据生成,推动个性化医疗与公共卫生监测的智能化发展。该数据集的应用显著促进了西班牙语地区临床决策支持系统的开发,对全球健康公平性及跨文化医学研究具有深远意义。
以上内容由遇见数据集搜集并总结生成



