five

conll2003

收藏
huggingface.co2025-03-22 收录
下载链接:
https://huggingface.co/datasets/eriktks/conll2003
下载链接
链接失效反馈
官方服务:
资源简介:
The shared task of CoNLL-2003 concerns language-independent named entity recognition. We will concentrate on four types of named entities: persons, locations, organizations and names of miscellaneous entities that do not belong to the previous three groups. The CoNLL-2003 shared task data files contain four columns separated by a single space. Each word has been put on a separate line and there is an empty line after each sentence. The first item on each line is a word, the second a part-of-speech (POS) tag, the third a syntactic chunk tag and the fourth the named entity tag. The chunk tags and the named entity tags have the format I-TYPE which means that the word is inside a phrase of type TYPE. Only if two phrases of the same type immediately follow each other, the first word of the second phrase will have tag B-TYPE to show that it starts a new phrase. A word with tag O is not part of a phrase. Note the dataset uses IOB2 tagging scheme, whereas the original dataset uses IOB1. For more details see https://www.clips.uantwerpen.be/conll2003/ner/ and https://www.aclweb.org/anthology/W03-0419

CoNLL-2003联合任务的共同目标是关注与语言无关的命名实体识别。本任务将专注于四种类型的命名实体:人物、地点、组织以及不属于前三种类型的其他实体的名称。CoNLL-2003联合任务的数据文件包含四列,由单个空格分隔。每个单词单独占据一行,并且每句话之后都有一个空行。每行的第一个项目是单词,第二个是词性(POS)标签,第三个是句法块标签,第四个是命名实体标签。块标签和命名实体标签的格式为I-TYPE,这意味着单词位于类型为TYPE的短语之内。只有当两个相同类型的短语紧挨着时,第二个短语的首个单词将具有B-TYPE标签,以表明它标志着新短语的开始。标签为O的单词不属于任何短语。请注意,该数据集使用IOB2标签方案,而原始数据集使用IOB1方案。有关更详细信息,请参阅https://www.clips.uantwerpen.be/conll2003/ner/和https://www.aclweb.org/anthology/W03-0419。
提供机构:
huggingface.co
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
conll2003数据集是一个用于命名实体识别任务的数据集,包含四种类型的命名实体标注,采用IOB2标记方案,适用于训练和评估NER模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作