tner/conll2003
收藏数据集概述
数据集基本信息
- 名称: CoNLL-2003
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语
- 大小: 10K<n<100K
- 任务类别: 词元分类
- 任务ID: 命名实体识别
- 美观名称: CoNLL-2003
数据集详细描述
- 领域: 新闻
- 实体数量: 3
- 实体类型:
ORG,PER,LOC,MISC
数据集结构
数据实例
json { tags: [SOCCER,-, JAPAN, GET, LUCKY, WIN, ,, CHINA, IN, SURPRISE, DEFEAT, .], tokens: [0, 0, 5, 0, 0, 0, 0, 3, 0, 0, 0, 0] }
标签ID
python { "O": 0, "B-ORG": 1, "B-MISC": 2, "B-PER": 3, "I-PER": 4, "B-LOC": 5, "I-ORG": 6, "I-MISC": 7, "I-LOC": 8 }
数据分割
| 名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| conll2003 | 14041 | 3250 | 3453 |
许可证信息
数据集的版权信息来源于CoNLL2003 shared task页面,具体版权协议需通过Organizational agreement和Individual agreement了解。
引用信息
bibtex @inproceedings{tjong-kim-sang-de-meulder-2003-introduction, title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition", author = "Tjong Kim Sang, Erik F. and De Meulder, Fien", booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003", year = "2003", url = "https://www.aclweb.org/anthology/W03-0419", pages = "142--147", }




