community-datasets/swedish_medical_ner
收藏Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/swedish_medical_ner
下载链接
链接失效反馈官方服务:
资源简介:
SwedMedNER是一个用于瑞典语医疗文本的命名实体识别(NER)数据集。它包含三个子集,分别来自瑞典维基百科、Läkartidningen和1177 Vårdguiden。瑞典维基百科和Läkartidningen子集总共包含超过790,000个序列,每个序列有60个字符,而1177 Vårdguiden子集是手动标注的,包含927个句子和2740个标注,其中1574个是疾病和症状,546个是药物,620个是身体结构。瑞典维基百科和Läkartidningen的文本是使用医疗种子词列表自动标注的,而1177 Vårdguiden的句子是手动标注的。
提供机构:
community-datasets
原始信息汇总
数据集概述
数据集描述
- 数据集名称: SwedMedNER
- 语言: 瑞典语 (sv)
- 许可: CC BY-SA 4.0
- 多语言性: 单语种
- 大小类别: 100K<n<1M
- 源数据集: 原始数据
- 任务类别: 标记分类
- 任务ID: 命名实体识别
数据集结构
数据实例
数据集包含三个子集,分别来自三个不同的源:
- wiki: 瑞典维基百科
- lt: Läkartidningen
- 1177: 1177 Vårdguiden
数据字段
每个子集包含以下字段:
sid: 字符串类型sentence: 字符串类型entities: 序列类型,包含以下子字段:start: 整数类型end: 整数类型text: 字符串类型type: 类别标签,包含以下类型:0: Disorder and Finding1: Pharmaceutical Drug2: Body Structure
数据分割
每个子集的数据分割如下:
- wiki:
train: 48720个样本,7044714字节
- lt:
train: 745753个样本,97955287字节
- 1177:
train: 927个样本,159007字节
数据集创建
注释过程
- 使用SweMeSH和SNOMED CT提取种子术语列表。
- 对瑞典维基百科和Läkartidningen的文章进行自动注释,使用60个字符的上下文窗口。
- 对1177 Vårdguiden的15个文档进行手动注释,共产生2740个注释。
附加信息
许可信息
数据集遵循Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0)。
引用信息
bibtex @inproceedings{almgrenpavlovmogren2016bioner, title={Named Entity Recognition in Swedish Medical Journals with Deep Bidirectional Character-Based LSTMs}, author={Simon Almgren, Sean Pavlov, Olof Mogren}, booktitle={Proceedings of the Fifth Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM 2016)}, pages={1}, year={2016} }



