five

tner/conll2003

收藏
Hugging Face2022-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/conll2003
下载链接
链接失效反馈
官方服务:
资源简介:
CoNLL-2003 NER数据集是一个用于命名实体识别任务的数据集,主要来源于新闻领域。该数据集包含四种实体类型:ORG(组织)、PER(人名)、LOC(地点)和MISC(其他)。数据集的结构包括训练集、验证集和测试集,分别包含14041、3250和3453个样本。数据集的版权归Reuters Ltd和/或Thomson Reuters所有,使用时需要签署相关协议。
提供机构:
tner
原始信息汇总

数据集概述

数据集基本信息

  • 名称: CoNLL-2003
  • 语言: 英语
  • 许可证: 其他
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别
  • 美观名称: CoNLL-2003

数据集详细描述

  • 领域: 新闻
  • 实体数量: 3
  • 实体类型: ORG, PER, LOC, MISC

数据集结构

数据实例

json { tags: [SOCCER,-, JAPAN, GET, LUCKY, WIN, ,, CHINA, IN, SURPRISE, DEFEAT, .], tokens: [0, 0, 5, 0, 0, 0, 0, 3, 0, 0, 0, 0] }

标签ID

python { "O": 0, "B-ORG": 1, "B-MISC": 2, "B-PER": 3, "I-PER": 4, "B-LOC": 5, "I-ORG": 6, "I-MISC": 7, "I-LOC": 8 }

数据分割

名称 训练 验证 测试
conll2003 14041 3250 3453

许可证信息

数据集的版权信息来源于CoNLL2003 shared task页面,具体版权协议需通过Organizational agreementIndividual agreement了解。

引用信息

bibtex @inproceedings{tjong-kim-sang-de-meulder-2003-introduction, title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition", author = "Tjong Kim Sang, Erik F. and De Meulder, Fien", booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003", year = "2003", url = "https://www.aclweb.org/anthology/W03-0419", pages = "142--147", }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作