CLUENER2020

arXiv2020-01-21 更新2024-06-21 收录

下载链接：

https://github.com/CLUEbenchmark/CLUENER2020

下载链接

链接失效反馈

资源简介：

CLUENER2020是由CLUE组织创建的细粒度中文命名实体识别数据集，包含10个类别，如组织、人名、地址等，共13,436个标注样本。数据集来源于THUCNews新闻文章，通过远监督方法和人工校验进行标注。该数据集旨在解决中文细粒度命名实体识别的挑战，适用于信息提取、问答系统等领域，是目前其他中文NER数据集更具挑战性和多样性的替代品。

CLUENER2020 is a fine-grained Chinese named entity recognition (NER) dataset created by the CLUE organization. It covers 10 entity categories such as organization, person, location and others, with a total of 13,436 annotated samples. The dataset is derived from THUCNews news articles, and its annotations are generated through distant supervision methods combined with manual verification. This dataset is designed to address the challenges in Chinese fine-grained NER, and is suitable for fields including information extraction, question answering systems and other related areas. It serves as a more challenging and diverse alternative than other existing Chinese NER datasets.

提供机构：

CLUE组织

创建时间：

2020-01-13

搜集汇总

数据集介绍

构建方式

CLUENER2020数据集由CLUE组织构建，旨在为中文命名实体识别任务提供一个精细划分的数据集。该数据集的构建始于对THUCNews新闻文章的筛选，THUCNews包含了约74万篇来自新浪新闻RSS的新闻文章，涵盖了包括财经、股票、教育、时尚、体育、游戏、娱乐等多个领域的14个新闻类别。为了预标注数据集，研究人员采用了远程监督方法，并借助词汇表进行了初步标注。随后，通过人工检查和修正，以确保标注的准确性。为了确保数据集的挑战性，研究人员采用了一种称为交叉验证和过滤的方法，将标注后的数据集分割成k个文件夹，并对每个文件夹进行小规模的现代模型训练，预测其他文件夹，最终移除所有k-1个预测都正确的样本，保留具有挑战性的样本。经过这一系列步骤，CLUENER2020数据集最终包含了10个实体类别，共计13,436个标注样本。

特点

CLUENER2020数据集的特点在于其精细划分的实体类别和丰富的样本量。该数据集包含了10个不同的实体类别，除了常见的人物、组织、地点等标签外，还包含了公司、政府、书籍、游戏、电影、职位和场景等更多样化的类别，这使得数据集更具挑战性，能够更好地反映现实世界的应用场景。此外，CLUENER2020数据集在类别数据量方面进行了控制，确保每个类别都有足够的数据量，避免了数据不平衡的问题。最后，CLUENER2020数据集的标注精度更高，细节更丰富，有助于研究人员进行更深入的探索。

使用方法

使用CLUENER2020数据集的方法主要包括数据预处理、模型训练和模型评估。首先，需要将数据集中的标签转换为适合模型输入的格式，例如采用BIOS标签方法。然后，可以使用诸如双向LSTM-CRF、BERT和RoBERTa等模型进行训练。在模型训练过程中，可以调整模型参数，如LSTM层数量、隐藏状态大小、字符嵌入大小等，以优化模型性能。最后，通过在开发集上的F1分数来选择最佳模型，并在测试集上进行评估。此外，为了更好地理解任务的难度和现代模型与人类表现之间的比较，还可以进行人类性能评估，通过让标注者熟悉NER类别和定义，然后在训练集和测试集上进行标注，最后计算标注结果的平均分数。

背景与挑战

背景概述

CLUENER2020是由CLUE组织创建的一个中文细粒度命名实体识别数据集。该数据集于2020年发布，包含10个类别，包括组织、人名、地址、公司、政府、书籍、游戏、电影、职位和场景。与现有的其他中文NER数据集相比，CLUENER2020更具挑战性，能够更好地反映真实世界的应用场景。该数据集的创建旨在促进中文细粒度NER的研究，并为相关领域的研究人员提供一个高质量的数据集。

当前挑战

CLUENER2020数据集的挑战主要包括两个方面：1) 所解决的领域问题：CLUENER2020数据集旨在解决中文细粒度命名实体识别的问题。与现有的其他中文NER数据集相比，CLUENER2020包含了更多的类别，并且每个类别中的数据量更加均衡，这使得该数据集更具挑战性。2) 构建过程中所遇到的挑战：CLUENER2020数据集的构建过程中，研究人员采用了远程监督方法和数据过滤技术，以确保数据集的质量和挑战性。然而，这些方法也带来了一些挑战，例如如何确保远程监督的准确性，以及如何有效地进行数据过滤。此外，由于CLUENER2020数据集包含的类别较多，因此在构建数据集的过程中，研究人员还需要考虑如何有效地对实体进行标注和分类。

常用场景

经典使用场景

CLUENER2020数据集是中文命名实体识别（NER）任务中一个细粒度数据集，它包含了10个类别，包括组织、人名、地址、公司、政府、书籍、游戏、电影、职位和场景。这些类别覆盖了新闻文本中常见的实体类型，使得CLUENER2020成为研究中文NER任务的重要资源。该数据集被广泛用于训练和评估NER模型，尤其是在需要细粒度实体识别的应用场景中，如智能问答系统、信息抽取和文本分类等。

实际应用

CLUENER2020数据集在实际应用中具有广泛的应用前景。它可以用于开发智能问答系统，帮助用户快速找到相关信息；可以用于信息抽取，从文本中提取结构化数据；还可以用于文本分类，帮助用户对文本进行分类和归档。此外，CLUENER2020数据集还可以用于开发基于文本的推荐系统，帮助用户发现感兴趣的内容。

衍生相关工作

基于CLUENER2020数据集，研究人员开展了一系列相关工作。例如，一些研究尝试使用更先进的模型结构和预训练技术来提高NER模型的性能；另一些研究则关注于如何更好地处理长文本和跨领域文本的NER任务。此外，还有一些研究尝试将CLUENER2020数据集与其他数据集进行融合，以构建更大规模和更全面的NER数据集。这些相关工作进一步推动了中文NER任务的研究和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集