five

bigbio/swedish_medical_ner

收藏
Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/swedish_medical_ner
下载链接
链接失效反馈
官方服务:
资源简介:
swedish_medical_ner是一个瑞典语医学文本的命名实体识别数据集。它由三个子集组成,分别来自三个不同的来源:瑞典维基百科(wiki)、Läkartidningen(lt)和1177 Vårdguiden(1177)。瑞典维基百科和Läkartidningen子集总共包含超过790000个序列,每个序列有60个字符,而1177 Vårdguiden子集是手动标注的,包含927个句子,2740个注释,其中1574个是疾病和发现,546个是药物,620个是身体结构。瑞典维基百科和Läkartidningen的文本是使用医学种子术语列表自动标注的,而1177 Vårdguiden的句子是手动标注的。
提供机构:
bigbio
原始信息汇总

数据集概述:Swedish Medical NER

数据集描述

  • 语言: 瑞典语
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 单语种
  • 任务: 命名实体识别(NER)

数据集详情

  • 来源: 该数据集包含三个子集,分别来自瑞典维基百科、Läkartidningen和1177 Vårdguiden。
  • 维基百科和Läkartidningen子集: 包含超过790000个序列,每个序列60个字符。
  • 1177 Vårdguiden子集: 手动标注,包含927个句子,2740个标注,其中1574个是疾病和发现,546个是药物,620个是身体结构。
  • 标注方式: 瑞典维基百科和Läkartidningen的文本通过自动标注,而1177 Vårdguiden的句子则是手动标注。

引用信息

@inproceedings{almgren-etal-2016-named, author = { Almgren, Simon and Pavlov, Sean and Mogren, Olof }, title = {Named Entity Recognition in Swedish Medical Journals with Deep Bidirectional Character-Based LSTMs}, booktitle = {Proceedings of the Fifth Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM 2016)}, publisher = {The COLING 2016 Organizing Committee}, pages = {30-39}, year = {2016}, month = {12}, url = {https://aclanthology.org/W16-5104}, eprint = {https://aclanthology.org/W16-5104.pdf} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作