community-datasets/ehealth_kd
收藏数据集概述
数据集基本信息
- 名称: eHealth-KD
- 语言: 西班牙语 (es)
- 许可证: CC BY-NC-SA 4.0
- 多语言性: 单语种
- 数据量: 1K<n<10K
- 源数据: 原始数据
- 任务类别:
- 命名实体识别 (Named-Entity Recognition)
- 关系预测 (Relation Prediction)
数据集结构
数据实例
数据集的一个示例如下: json { "sentence": "En la leucemia linfocítica crónica, hay demasiados linfocitos, un tipo de glóbulos blancos.", "entities": [ { "ent_id": "T1", "ent_text": "leucemia linfocítica crónica", "ent_label": 0, "start_character": 6, "end_character": 34 }, { "ent_id": "T2", "ent_text": "linfocitos", "ent_label": 0, "start_character": 51, "end_character": 61 }, { "ent_id": "T3", "ent_text": "glóbulos blancos", "ent_label": 0, "start_character": 74, "end_character": 90 } ], "relations": [ { "rel_id": "R0", "rel_label": 0, "arg1": "T2", "arg2": "T3" }, { "rel_id": "R1", "rel_label": 5, "arg1": "T1", "arg2": "T2" } ] }
数据字段
- sentence: 西班牙语的eHealth文档句子
- entities: 句子中识别的实体列表
- ent_id: 实体标识符 (例如 "T1")
- ent_text: 实体文本
- ent_label: 实体类型 (Concept, Action, Predicate, Reference)
- start_character: 实体起始字符位置
- end_character: 实体结束字符位置
- relations: 实体间识别的语义关系列表
- rel_id: 关系标识符 (例如 "R0")
- rel_label: 关系类型 (例如 is-a, same-as, has-property 等)
- arg1: 关系中第一个实体的ID
- arg2: 关系中第二个实体的ID
数据分割
数据集分为训练集、验证集和测试集,具体分布如下:
| 分割 | 数量 |
|---|---|
| 训练集 | 800 |
| 验证集 | 199 |
| 测试集 | 100 |
数据集创建
数据来源
数据集从MedlinePlus平台提取,该平台提供大量健康文本数据。数据经过处理,去除XML标记,提取文本内容,并进行进一步的后期处理,以去除不需要的句子,如页眉、页脚等。
标注过程
数据通过BRAT工具手动标注,并进行后期处理以生成挑战所需的输出文件格式。
使用注意事项
- 数据集仅供研究目的使用。
- 请检查数据集许可证以获取更多信息。
附加信息
数据集许可证
数据集采用Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可证。
引用信息
引用数据集时,可以使用以下参考文献:
bibtex @inproceedings{overview_ehealthkd2020, author = {Piad{-}Morffis, Alejandro and Guti{{e}}rrez, Yoan and Ca{~{n}}izares-Diaz, Hian and Estevez{-}Velarde, Suilan and Almeida{-}Cruz, Yudivi{{a}}n and Mu{~{n}}oz, Rafael and Montoyo, Andr{{e}}s}, title = {Overview of the eHealth Knowledge Discovery Challenge at IberLEF 2020}, booktitle = , year = {2020}, }



