five

community-datasets/swedish_medical_ner

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/swedish_medical_ner
下载链接
链接失效反馈
官方服务:
资源简介:
SwedMedNER是一个用于瑞典语医疗文本的命名实体识别(NER)数据集。它包含三个子集,分别来自瑞典维基百科、Läkartidningen和1177 Vårdguiden。瑞典维基百科和Läkartidningen子集总共包含超过790,000个序列,每个序列有60个字符,而1177 Vårdguiden子集是手动标注的,包含927个句子和2740个标注,其中1574个是疾病和症状,546个是药物,620个是身体结构。瑞典维基百科和Läkartidningen的文本是使用医疗种子词列表自动标注的,而1177 Vårdguiden的句子是手动标注的。
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: SwedMedNER
  • 语言: 瑞典语 (sv)
  • 许可: CC BY-SA 4.0
  • 多语言性: 单语种
  • 大小类别: 100K<n<1M
  • 源数据集: 原始数据
  • 任务类别: 标记分类
  • 任务ID: 命名实体识别

数据集结构

数据实例

数据集包含三个子集,分别来自三个不同的源:

  • wiki: 瑞典维基百科
  • lt: Läkartidningen
  • 1177: 1177 Vårdguiden

数据字段

每个子集包含以下字段:

  • sid: 字符串类型
  • sentence: 字符串类型
  • entities: 序列类型,包含以下子字段:
    • start: 整数类型
    • end: 整数类型
    • text: 字符串类型
    • type: 类别标签,包含以下类型:
      • 0: Disorder and Finding
      • 1: Pharmaceutical Drug
      • 2: Body Structure

数据分割

每个子集的数据分割如下:

  • wiki:
    • train: 48720个样本,7044714字节
  • lt:
    • train: 745753个样本,97955287字节
  • 1177:
    • train: 927个样本,159007字节

数据集创建

注释过程

  • 使用SweMeSH和SNOMED CT提取种子术语列表。
  • 对瑞典维基百科和Läkartidningen的文章进行自动注释,使用60个字符的上下文窗口。
  • 对1177 Vårdguiden的15个文档进行手动注释,共产生2740个注释。

附加信息

许可信息

数据集遵循Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0)

引用信息

bibtex @inproceedings{almgrenpavlovmogren2016bioner, title={Named Entity Recognition in Swedish Medical Journals with Deep Bidirectional Character-Based LSTMs}, author={Simon Almgren, Sean Pavlov, Olof Mogren}, booktitle={Proceedings of the Fifth Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM 2016)}, pages={1}, year={2016} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作