five

community-datasets/ehealth_kd

收藏
Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/ehealth_kd
下载链接
链接失效反馈
官方服务:
资源简介:
eHealth-KD数据集是为IberLEF 2020的eHealth-KD挑战赛设计的,旨在识别西班牙语健康文档中的语义实体和关系。该数据集包含用于命名实体识别和关系预测的两个计算子任务,数据来源于MedlinePlus,由专家手动标注。数据集分为训练、验证和测试集,适用于研究目的,并根据CC BY-NC-SA 4.0许可发布。

eHealth-KD数据集是为IberLEF 2020的eHealth-KD挑战赛设计的,旨在识别西班牙语健康文档中的语义实体和关系。该数据集包含用于命名实体识别和关系预测的两个计算子任务,数据来源于MedlinePlus,由专家手动标注。数据集分为训练、验证和测试集,适用于研究目的,并根据CC BY-NC-SA 4.0许可发布。
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集基本信息

  • 名称: eHealth-KD
  • 语言: 西班牙语 (es)
  • 许可证: CC BY-NC-SA 4.0
  • 多语言性: 单语种
  • 数据量: 1K<n<10K
  • 源数据: 原始数据
  • 任务类别:
    • 命名实体识别 (Named-Entity Recognition)
    • 关系预测 (Relation Prediction)

数据集结构

数据实例

数据集的一个示例如下: json { "sentence": "En la leucemia linfocítica crónica, hay demasiados linfocitos, un tipo de glóbulos blancos.", "entities": [ { "ent_id": "T1", "ent_text": "leucemia linfocítica crónica", "ent_label": 0, "start_character": 6, "end_character": 34 }, { "ent_id": "T2", "ent_text": "linfocitos", "ent_label": 0, "start_character": 51, "end_character": 61 }, { "ent_id": "T3", "ent_text": "glóbulos blancos", "ent_label": 0, "start_character": 74, "end_character": 90 } ], "relations": [ { "rel_id": "R0", "rel_label": 0, "arg1": "T2", "arg2": "T3" }, { "rel_id": "R1", "rel_label": 5, "arg1": "T1", "arg2": "T2" } ] }

数据字段

  • sentence: 西班牙语的eHealth文档句子
  • entities: 句子中识别的实体列表
    • ent_id: 实体标识符 (例如 "T1")
    • ent_text: 实体文本
    • ent_label: 实体类型 (Concept, Action, Predicate, Reference)
    • start_character: 实体起始字符位置
    • end_character: 实体结束字符位置
  • relations: 实体间识别的语义关系列表
    • rel_id: 关系标识符 (例如 "R0")
    • rel_label: 关系类型 (例如 is-a, same-as, has-property 等)
    • arg1: 关系中第一个实体的ID
    • arg2: 关系中第二个实体的ID

数据分割

数据集分为训练集、验证集和测试集,具体分布如下:

分割 数量
训练集 800
验证集 199
测试集 100

数据集创建

数据来源

数据集从MedlinePlus平台提取,该平台提供大量健康文本数据。数据经过处理,去除XML标记,提取文本内容,并进行进一步的后期处理,以去除不需要的句子,如页眉、页脚等。

标注过程

数据通过BRAT工具手动标注,并进行后期处理以生成挑战所需的输出文件格式。

使用注意事项

  • 数据集仅供研究目的使用。
  • 请检查数据集许可证以获取更多信息。

附加信息

数据集许可证

数据集采用Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可证。

引用信息

引用数据集时,可以使用以下参考文献:

bibtex @inproceedings{overview_ehealthkd2020, author = {Piad{-}Morffis, Alejandro and Guti{{e}}rrez, Yoan and Ca{~{n}}izares-Diaz, Hian and Estevez{-}Velarde, Suilan and Almeida{-}Cruz, Yudivi{{a}}n and Mu{~{n}}oz, Rafael and Montoyo, Andr{{e}}s}, title = {Overview of the eHealth Knowledge Discovery Challenge at IberLEF 2020}, booktitle = , year = {2020}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作