eriktks/conll2003|命名实体识别数据集|自然语言处理数据集

hugging_face2024-01-18 更新2024-05-25 收录

命名实体识别

自然语言处理

下载链接：

https://hf-mirror.com/datasets/eriktks/conll2003

下载链接

链接失效反馈

资源简介：

CoNLL-2003数据集是一个专注于语言独立命名实体识别的资源，主要识别四种类型的实体：人名、地点、组织和其他杂项实体。该数据集是英文单语的，通过众包方式进行标注。数据来源于路透社语料库，包含词性标签、块标签和命名实体标签的词级标注。数据集分为训练、验证和测试集，总大小超过10MB。使用的标注方案是IOB2，适用于命名实体识别和词性标注等任务。

提供机构：

eriktks

原始信息汇总

数据集概述

基本信息

数据集名称: CoNLL-2003
语言: 英语
许可证: 其他
多语言性: 单语种
数据集大小: 10K<n<100K
源数据集: 扩展自其他-路透社语料库
任务类别:
- 词性标注 (Part-of-Speech)
- 命名实体识别 (Named-Entity Recognition)

数据集结构

特征:
- id: 字符串类型
- tokens: 字符串序列
- pos_tags: 分类标签序列，包含47种词性标签
- chunk_tags: 分类标签序列，包含23种句法块标签
- ner_tags: 分类标签序列，包含9种命名实体标签

数据分割

训练集: 14041个样本
验证集: 3250个样本
测试集: 3453个样本

数据实例

示例: json { "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0], "id": "0", "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7], "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."] }

引用信息

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction, title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition", author = "Tjong Kim Sang, Erik F. and De Meulder, Fien", booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003", year = "2003", url = "https://www.aclweb.org/anthology/W03-0419", pages = "142--147", }

AI搜集汇总

数据集介绍

构建方式

CoNLL-2003数据集的构建基于Reuters Corpus的新闻文章，通过众包方式进行标注。数据集包含四种类型的命名实体：人物、地点、组织和其他杂项。每个单词被单独标注，包括词性标签、句法块标签和命名实体标签，采用IOB2标注方案。数据集的构建旨在支持语言无关的命名实体识别任务，为研究者提供了一个标准化的基准数据集。

特点

CoNLL-2003数据集的主要特点在于其多层次的标注结构，包括词性标注、句法块标注和命名实体标注，涵盖了四种主要的命名实体类型。数据集规模适中，包含超过14,000个训练样本，适合用于训练和评估命名实体识别模型。此外，数据集的标注质量较高，适用于多种自然语言处理任务，如实体抽取和词性标注。

使用方法

CoNLL-2003数据集适用于命名实体识别（NER）和词性标注（POS）任务。使用该数据集时，研究者可以通过加载数据集的训练、验证和测试集进行模型训练和评估。数据集提供了详细的标注信息，包括每个单词的词性标签、句法块标签和命名实体标签，研究者可以根据任务需求选择相应的标注信息进行模型训练。

背景与挑战

背景概述

CoNLL-2003数据集是由Erik F. Tjong Kim Sang和Fien De Meulder于2003年创建的，旨在推动语言无关的命名实体识别（Named Entity Recognition, NER）研究。该数据集基于Reuters新闻语料库，专注于识别四类命名实体：人名、地点、组织和杂项实体。CoNLL-2003的发布极大地促进了自然语言处理领域的发展，尤其是在序列标注任务中，成为评估NER模型性能的标准基准之一。

当前挑战

CoNLL-2003数据集的主要挑战在于其复杂的标注任务，包括命名实体识别和词性标注。构建过程中，研究人员面临的主要挑战是如何在保持数据质量的同时，确保标注的一致性和准确性。此外，由于数据集基于新闻语料库，可能存在领域偏差，这为模型的泛化能力带来了额外的挑战。

常用场景

经典使用场景

CoNLL-2003数据集在自然语言处理领域中被广泛用于命名实体识别（Named Entity Recognition, NER）任务。该数据集包含了四种类型的命名实体：人名、地名、组织名和其他实体。通过提供详细的标注信息，研究者可以利用该数据集训练和评估NER模型，从而识别文本中的关键实体信息。

衍生相关工作

基于CoNLL-2003数据集，许多经典的工作得以展开。例如，研究者们提出了多种改进的NER模型，如基于条件随机场（CRF）的方法、深度学习模型（如LSTM和BERT）等。这些模型在CoNLL-2003数据集上的表现显著优于传统方法，推动了NER技术的进步。此外，该数据集还被用于多任务学习、跨语言NER等研究方向，进一步扩展了其在自然语言处理领域的影响力。

数据集最近研究

最新研究方向

近年来，CoNLL-2003数据集在自然语言处理领域的前沿研究中扮演了重要角色，尤其是在命名实体识别（NER）和词性标注（POS）任务中。随着深度学习技术的快速发展，研究者们不断探索如何利用预训练语言模型（如BERT、GPT等）提升NER的性能。此外，跨领域和跨语言的NER研究也成为热点，旨在解决不同语言和领域间的数据分布差异问题。这些研究不仅推动了NER技术的进步，还为信息抽取、知识图谱构建等应用提供了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成，每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像，但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间，训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录