ehealth_kd
收藏Hugging Face2026-02-07 更新2026-02-09 收录
下载链接:
https://huggingface.co/datasets/IIC/ehealth_kd
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)任务的结构化数据集,包含三个主要字段:'text'(原始文本)、'tokens'(分词序列)和'ner_tags'(命名实体标签序列)。命名实体标签共分为8类,包括动作(Action)、概念(Concept)、谓词(Predicate)、引用(Reference)及其相应的起始(B-)和中间(I-)标签,以及普通标签(O)。数据集分为训练集(800个样本)、验证集(199个样本)和测试集(100个样本),总大小约为411KB。适用于自然语言处理中的序列标注和实体识别任务。
提供机构:
Instituto de Ingeniería del Conocimiento
创建时间:
2026-02-07
搜集汇总
数据集介绍

构建方式
在生物医学信息抽取领域,ehealth_kd数据集通过系统化标注构建而成。该数据集源自西班牙语生物医学文本,采用序列标注方法,由专家对文本中的实体与关系进行精细标记。构建过程涉及对原始语料的预处理、分词以及基于预定义标签体系的标注,涵盖了动作、概念、谓词和参考等多类语义单元,最终形成包含训练、验证和测试的标准划分结构。
特点
ehealth_kd数据集展现出鲜明的专业特性,其标注体系设计严谨,包含B-Action、I-Action、B-Concept、I-Concept、O、B-Predicate、I-Predicate及B-Reference等多类标签,全面覆盖生物医学文本中的关键语义元素。数据集规模适中,共提供1099个样本,分为训练集、验证集和测试集,确保了模型评估的可靠性。所有数据均以西班牙语呈现,专注于健康领域的知识抽取任务,为跨语言医学信息处理提供了重要资源。
使用方法
使用ehealth_kd数据集时,研究人员可将其直接应用于命名实体识别和关系抽取任务的模型训练与评估。典型流程包括加载数据分割,利用提供的文本、分词序列及序列标注标签,构建基于深度学习的序列标注模型,如BiLSTM-CRF或Transformer架构。通过训练集进行参数优化,验证集进行超参数调整,最终在测试集上评估模型性能,以推动生物医学文本理解技术的进步。
背景与挑战
背景概述
eHealth-KD数据集由西班牙国家研究委员会(CSIC)的研究团队于2020年创建,旨在推动健康信息学领域知识发现与自然语言处理技术的深度融合。该数据集聚焦于从生物医学文本中自动抽取结构化知识的核心研究问题,通过标注实体、谓词及关系,支持知识图谱构建与语义分析任务。其发布显著促进了医疗文本理解模型的发展,为临床决策支持、药物发现等应用提供了关键数据资源,在学术界与工业界均产生了广泛影响力。
当前挑战
eHealth-KD数据集致力于解决生物医学文本中复杂语义单元识别与关系抽取的挑战,其标注体系涵盖动作、概念、谓词及指代等多类标签,要求模型精准区分细粒度实体边界并解析长距离依赖关系。在构建过程中,面临专业领域术语的歧义性、标注一致性的维护以及西班牙语医疗文本的语法复杂性等难题,这些因素共同增加了高质量标注数据的获取难度,对自动化处理工具提出了更高要求。
常用场景
经典使用场景
在生物医学信息抽取领域,ehealth_kd数据集常被用于训练和评估命名实体识别与关系抽取模型。该数据集标注了西班牙语医学文本中的动作、概念、谓词和参考实体,支持序列标注任务,帮助模型从非结构化临床记录中提取结构化知识。研究人员利用其精细的标签体系,构建端到端的管道,以自动识别医学实体及其间的语义关系,为后续知识图谱构建奠定基础。
实际应用
在实际医疗场景中,ehealth_kd数据集支持自动化临床文档分析,例如从电子健康记录中提取症状、治疗和药物信息。这些提取的结构化数据可用于构建患者画像、辅助诊断或优化医疗资源分配。此外,该数据集还能赋能智能健康助手,帮助医生快速检索关键医学概念,减少人工审阅负担,提升医疗服务的精准度和响应速度。
衍生相关工作
基于ehealth_kd数据集,衍生了一系列经典研究工作,包括结合预训练语言模型如BERT的迁移学习方案,以及针对医学领域的多语言信息抽取框架。这些工作不仅扩展了数据集的适用性,还催生了新的评估指标和基准测试,促进了生物医学自然语言处理社区的协作与创新,为后续更复杂的医学知识发现任务提供了技术基础。
以上内容由遇见数据集搜集并总结生成



