community-datasets/swedish_medical_ner

Name: community-datasets/swedish_medical_ner
Creator: community-datasets
Published: 2024-06-26 07:03:30
License: 暂无描述

Hugging Face2024-06-26 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/swedish_medical_ner

下载链接

链接失效反馈

官方服务：

资源简介：

SwedMedNER是一个用于瑞典语医疗文本的命名实体识别（NER）数据集。它包含三个子集，分别来自瑞典维基百科、Läkartidningen和1177 Vårdguiden。瑞典维基百科和Läkartidningen子集总共包含超过790,000个序列，每个序列有60个字符，而1177 Vårdguiden子集是手动标注的，包含927个句子和2740个标注，其中1574个是疾病和症状，546个是药物，620个是身体结构。瑞典维基百科和Läkartidningen的文本是使用医疗种子词列表自动标注的，而1177 Vårdguiden的句子是手动标注的。

提供机构：

community-datasets

原始信息汇总

数据集概述

数据集描述

数据集名称: SwedMedNER
语言: 瑞典语 (sv)
许可: CC BY-SA 4.0
多语言性: 单语种
大小类别: 100K<n<1M
源数据集: 原始数据
任务类别: 标记分类
任务ID: 命名实体识别

数据集结构

数据实例

数据集包含三个子集，分别来自三个不同的源：

wiki: 瑞典维基百科
lt: Läkartidningen
1177: 1177 Vårdguiden

数据字段

每个子集包含以下字段：

sid: 字符串类型
sentence: 字符串类型
entities: 序列类型，包含以下子字段：
- start: 整数类型
- end: 整数类型
- text: 字符串类型
- type: 类别标签，包含以下类型：
  - 0: Disorder and Finding
  - 1: Pharmaceutical Drug
  - 2: Body Structure

数据分割

每个子集的数据分割如下：

wiki:
- train: 48720个样本，7044714字节
lt:
- train: 745753个样本，97955287字节
1177:
- train: 927个样本，159007字节

数据集创建

注释过程

使用SweMeSH和SNOMED CT提取种子术语列表。
对瑞典维基百科和Läkartidningen的文章进行自动注释，使用60个字符的上下文窗口。
对1177 Vårdguiden的15个文档进行手动注释，共产生2740个注释。

附加信息

许可信息

数据集遵循Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0)。

引用信息

bibtex @inproceedings{almgrenpavlovmogren2016bioner, title={Named Entity Recognition in Swedish Medical Journals with Deep Bidirectional Character-Based LSTMs}, author={Simon Almgren, Sean Pavlov, Olof Mogren}, booktitle={Proceedings of the Fifth Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM 2016)}, pages={1}, year={2016} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集