ZurichNLP/swissner
收藏Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZurichNLP/swissner
下载链接
链接失效反馈官方服务:
资源简介:
SwissNER是一个用于命名实体识别的多语言测试集,基于瑞士标准德语、法语、意大利语和罗曼什语的新闻文章。我们手动注释了2023年2月发表在以下在线新闻门户网站上的“瑞士”或“区域”类别中的文章:瑞士标准德语(srf.ch)、法语(rts.ch)、意大利语(rsi.ch)和罗曼什语(rtr.ch)。对于每篇文章,我们提取了导语段落后的前两段,并按照CoNLL-2002和2003共享任务的指南注释了人名、组织名、地名和其他实体。注释由单一注释者完成。
SwissNER是一个用于命名实体识别的多语言测试集,基于瑞士标准德语、法语、意大利语和罗曼什语的新闻文章。我们手动注释了2023年2月发表在以下在线新闻门户网站上的“瑞士”或“区域”类别中的文章:瑞士标准德语(srf.ch)、法语(rts.ch)、意大利语(rsi.ch)和罗曼什语(rtr.ch)。对于每篇文章,我们提取了导语段落后的前两段,并按照CoNLL-2002和2003共享任务的指南注释了人名、组织名、地名和其他实体。注释由单一注释者完成。
提供机构:
ZurichNLP
原始信息汇总
数据集概述
基本信息
- 名称: SwissNER
- 语言: 德语 (de), 法语 (fr), 意大利语 (it), 罗曼什语 (rm)
- 多语言性: 多语言
- 任务类别: 令牌分类
- 任务ID: 命名实体识别
- 大小类别: 小于1K
数据集结构
- 特征:
- tokens: 字符串序列
- ner_tags: 字符串序列
- url: 字符串类型
- 分割:
- test_de: 200个示例, 164433字节
- test_fr: 200个示例, 186036字节
- test_it: 200个示例, 197513字节
- test_rm: 200个示例, 206644字节
- 下载大小: 220352字节
- 数据集大小: 754626字节
许可证
- 文本段落: 瑞士广播公司 (SRG SSR) 版权所有
- 注释: 知识共享署名4.0国际许可 (CC BY 4.0)
统计数据
| DE | FR | IT | RM | 总计 | |
|---|---|---|---|---|---|
| 段落数 | 200 | 200 | 200 | 200 | 800 |
| 令牌数 | 9498 | 11434 | 12423 | 13356 | 46711 |
| 实体数 | 479 | 475 | 556 | 591 | 2101 |
– PER |
104 | 92 | 93 | 118 | 407 |
– ORG |
193 | 216 | 266 | 227 | 902 |
– LOC |
182 | 167 | 197 | 246 | 792 |
– MISC |
113 | 79 | 88 | 39 | 319 |
引用信息
bibtex @inproceedings{vamvas-etal-2023-swissbert, title = "{S}wiss{BERT}: The Multilingual Language Model for {S}witzerland", author = {Vamvas, Jannis and Gra{"e}n, Johannes and Sennrich, Rico}, editor = {Ghorbel, Hatem and Sokhn, Maria and Cieliebak, Mark and H{"u}rlimann, Manuela and de Salis, Emmanuel and Guerne, Jonathan}, booktitle = "Proceedings of the 8th edition of the Swiss Text Analytics Conference", month = jun, year = "2023", address = "Neuchatel, Switzerland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.swisstext-1.6", pages = "54--69", }



