five

ZurichNLP/swissner

收藏
Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZurichNLP/swissner
下载链接
链接失效反馈
官方服务:
资源简介:
SwissNER是一个用于命名实体识别的多语言测试集,基于瑞士标准德语、法语、意大利语和罗曼什语的新闻文章。我们手动注释了2023年2月发表在以下在线新闻门户网站上的“瑞士”或“区域”类别中的文章:瑞士标准德语(srf.ch)、法语(rts.ch)、意大利语(rsi.ch)和罗曼什语(rtr.ch)。对于每篇文章,我们提取了导语段落后的前两段,并按照CoNLL-2002和2003共享任务的指南注释了人名、组织名、地名和其他实体。注释由单一注释者完成。

SwissNER是一个用于命名实体识别的多语言测试集,基于瑞士标准德语、法语、意大利语和罗曼什语的新闻文章。我们手动注释了2023年2月发表在以下在线新闻门户网站上的“瑞士”或“区域”类别中的文章:瑞士标准德语(srf.ch)、法语(rts.ch)、意大利语(rsi.ch)和罗曼什语(rtr.ch)。对于每篇文章,我们提取了导语段落后的前两段,并按照CoNLL-2002和2003共享任务的指南注释了人名、组织名、地名和其他实体。注释由单一注释者完成。
提供机构:
ZurichNLP
原始信息汇总

数据集概述

基本信息

  • 名称: SwissNER
  • 语言: 德语 (de), 法语 (fr), 意大利语 (it), 罗曼什语 (rm)
  • 多语言性: 多语言
  • 任务类别: 令牌分类
  • 任务ID: 命名实体识别
  • 大小类别: 小于1K

数据集结构

  • 特征:
    • tokens: 字符串序列
    • ner_tags: 字符串序列
    • url: 字符串类型
  • 分割:
    • test_de: 200个示例, 164433字节
    • test_fr: 200个示例, 186036字节
    • test_it: 200个示例, 197513字节
    • test_rm: 200个示例, 206644字节
  • 下载大小: 220352字节
  • 数据集大小: 754626字节

许可证

  • 文本段落: 瑞士广播公司 (SRG SSR) 版权所有
  • 注释: 知识共享署名4.0国际许可 (CC BY 4.0)

统计数据

DE FR IT RM 总计
段落数 200 200 200 200 800
令牌数 9498 11434 12423 13356 46711
实体数 479 475 556 591 2101
PER 104 92 93 118 407
ORG 193 216 266 227 902
LOC 182 167 197 246 792
MISC 113 79 88 39 319

引用信息

bibtex @inproceedings{vamvas-etal-2023-swissbert, title = "{S}wiss{BERT}: The Multilingual Language Model for {S}witzerland", author = {Vamvas, Jannis and Gra{"e}n, Johannes and Sennrich, Rico}, editor = {Ghorbel, Hatem and Sokhn, Maria and Cieliebak, Mark and H{"u}rlimann, Manuela and de Salis, Emmanuel and Guerne, Jonathan}, booktitle = "Proceedings of the 8th edition of the Swiss Text Analytics Conference", month = jun, year = "2023", address = "Neuchatel, Switzerland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.swisstext-1.6", pages = "54--69", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作