GuiGel/meddocan
收藏Hugging Face2022-10-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GuiGel/meddocan
下载链接
链接失效反馈官方服务:
资源简介:
MEDDOCAN数据集是一个个人上传的SPACC_MEDDOCAN语料库,使用了自定义的spaCy管道进行分词。该数据集支持命名实体识别任务,语言为西班牙语。数据集包含10312个训练样本、5268个验证样本和5155个测试样本。
提供机构:
GuiGel
原始信息汇总
数据集概述
数据集名称
- 名称: MEDDOCAN
- 别名: meddocan
数据集属性
- 语言: 西班牙语 (es)
- 多语言性: 单语种
- 许可证: CC-BY-4.0
- 大小: 10K<n<100K
- 来源: 原始数据
- 标签: 临床, 受保护的健康信息, 健康记录
- 任务类别: 词元分类
- 任务ID: 命名实体识别
数据集结构
- 数据字段: 所有分割中的数据字段相同
- 数据分割:
名称 训练 验证 测试 meddocan 10312 5268 5155
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 专家生成
使用考虑
- 许可证信息:
- 本作品根据Creative Commons Attribution 4.0 International License授权。
- 允许分享和改编,即使是商业用途,但需适当署名并提供许可证链接。
引用信息
@inproceedings{Marimon2019AutomaticDO, title={Automatic De-identification of Medical Texts in Spanish: the MEDDOCAN Track, Corpus, Guidelines, Methods and Evaluation of Results}, author={Montserrat Marimon and Aitor Gonzalez-Agirre and Ander Intxaurrondo and Heidy Rodriguez and Jose Lopez Martin and Marta Villegas and Martin Krallinger}, booktitle={IberLEF@SEPLN}, year={2019} }
贡献者
- 感谢 @GuiGel 添加此数据集。



