community-datasets/ehealth_kd

Name: community-datasets/ehealth_kd
Creator: community-datasets
Published: 2024-06-24 11:30:38
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/ehealth_kd

下载链接

链接失效反馈

官方服务：

资源简介：

eHealth-KD数据集是为IberLEF 2020的eHealth-KD挑战赛设计的，旨在识别西班牙语健康文档中的语义实体和关系。该数据集包含用于命名实体识别和关系预测的两个计算子任务，数据来源于MedlinePlus，由专家手动标注。数据集分为训练、验证和测试集，适用于研究目的，并根据CC BY-NC-SA 4.0许可发布。

提供机构：

community-datasets

原始信息汇总

数据集概述

数据集基本信息

名称: eHealth-KD
语言: 西班牙语 (es)
许可证: CC BY-NC-SA 4.0
多语言性: 单语种
数据量: 1K<n<10K
源数据: 原始数据
任务类别:
- 命名实体识别 (Named-Entity Recognition)
- 关系预测 (Relation Prediction)

数据集结构

数据实例

数据集的一个示例如下： json { "sentence": "En la leucemia linfocítica crónica, hay demasiados linfocitos, un tipo de glóbulos blancos.", "entities": [ { "ent_id": "T1", "ent_text": "leucemia linfocítica crónica", "ent_label": 0, "start_character": 6, "end_character": 34 }, { "ent_id": "T2", "ent_text": "linfocitos", "ent_label": 0, "start_character": 51, "end_character": 61 }, { "ent_id": "T3", "ent_text": "glóbulos blancos", "ent_label": 0, "start_character": 74, "end_character": 90 } ], "relations": [ { "rel_id": "R0", "rel_label": 0, "arg1": "T2", "arg2": "T3" }, { "rel_id": "R1", "rel_label": 5, "arg1": "T1", "arg2": "T2" } ] }

数据字段

sentence: 西班牙语的eHealth文档句子
entities: 句子中识别的实体列表
- ent_id: 实体标识符 (例如 "T1")
- ent_text: 实体文本
- ent_label: 实体类型 (Concept, Action, Predicate, Reference)
- start_character: 实体起始字符位置
- end_character: 实体结束字符位置
relations: 实体间识别的语义关系列表
- rel_id: 关系标识符 (例如 "R0")
- rel_label: 关系类型 (例如 is-a, same-as, has-property 等)
- arg1: 关系中第一个实体的ID
- arg2: 关系中第二个实体的ID

数据分割

数据集分为训练集、验证集和测试集，具体分布如下：

分割	数量
训练集	800
验证集	199
测试集	100

数据集创建

数据来源

数据集从MedlinePlus平台提取，该平台提供大量健康文本数据。数据经过处理，去除XML标记，提取文本内容，并进行进一步的后期处理，以去除不需要的句子，如页眉、页脚等。

标注过程

数据通过BRAT工具手动标注，并进行后期处理以生成挑战所需的输出文件格式。

使用注意事项

数据集仅供研究目的使用。
请检查数据集许可证以获取更多信息。

附加信息

数据集许可证

数据集采用Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可证。

引用信息

引用数据集时，可以使用以下参考文献：

bibtex @inproceedings{overview_ehealthkd2020, author = {Piad{-}Morffis, Alejandro and Guti{{e}}rrez, Yoan and Ca{~{n}}izares-Diaz, Hian and Estevez{-}Velarde, Suilan and Almeida{-}Cruz, Yudivi{{a}}n and Mu{~{n}}oz, Rafael and Montoyo, Andr{{e}}s}, title = {Overview of the eHealth Knowledge Discovery Challenge at IberLEF 2020}, booktitle = , year = {2020}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集