chineseEL-datasets

github2022-12-04 更新2024-05-31 收录

下载链接：

https://github.com/DexterZeng/chineseEL-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是针对中文实体链接的修订NLPCC数据集（重新标注至2017年12月1日的中文维基百科转储）。

This is a revised NLPCC dataset for Chinese entity linking, re-annotated based on the Chinese Wikipedia dump as of December 1, 2017.

创建时间：

2018-02-20

原始信息汇总

数据集概述

数据集名称

chineseEL-datasets

数据集描述

该数据集是针对中文实体链接任务的修订版NLPCC数据集，重新标注于2017年12月1日的中国维基百科转储。

原始数据来源

NLPCC 2013: 链接
NLPCC 2014: 链接

数据集文件组成

NLPCC 2013

query.txt.withNIL: 评估答案，包含对本地知识库的标注
query_0525_ALL.txt: 无答案的评估样本
query_0501.txt: 训练数据
KB_BD_nomerge_nolink.xml: 本地知识库

NLPCC 2014

EL_annotation.txt: 评估答案，包含对本地知识库的标注
weiboAutoTag_6.txt: 无答案的评估样本
sample_query_2014.txt: 训练数据
PKBase_zhwiki_1_small.xml: 本地知识库

数据集修订说明

数据集中的本地知识库被指出是部分且过时的，可能限制了实体链接技术的发展。因此，对KB中的部分进行了重新标注，以中国维基百科为准。并非所有提及的实体都需要重新标注，因为我们是通过实体名称而非ID或其他方式来识别实体。部分实体的真实名称可能与中文维基百科中的相应实体名称相同，因此仅提供了修改文件，这些文件包含了在重新标注过程中真实实体名称发生变化的提及。

数据集当前状态

修订后的数据集中发现了一些错误，这些错误文件将尽快上传。

搜集汇总

数据集介绍

构建方式

chineseEL-datasets是基于NLPCC 2013和2014年发布的中文实体链接数据集进行修订的成果。该数据集的核心在于对原始数据中的实体链接进行了重新标注，使其与2017年12月1日的中文维基百科数据保持一致。原始数据集包括训练数据、评估样本及本地知识库文件，但由于本地知识库的部分性和过时性，限制了实体链接技术的发展。为此，研究团队对数据集中的实体名称进行了重新标注，仅对实体名称发生变化的提及进行了修改，并提供了相应的修改文件。

特点

该数据集的主要特点在于其标注的准确性和时效性。通过对原始数据中实体名称的重新标注，确保了实体链接与最新中文维基百科数据的一致性。此外，数据集保留了原始数据中的训练和评估样本，便于研究者进行模型训练和性能评估。数据集还提供了修改文件，详细记录了实体名称发生变化的部分，为研究者提供了更清晰的参考依据。

使用方法

使用chineseEL-datasets时，研究者需首先下载原始NLPCC 2013和2014年的数据集文件，包括训练数据、评估样本及本地知识库。随后，结合提供的修改文件，将重新标注的实体名称应用于原始数据中。数据集适用于中文实体链接任务的研究与开发，研究者可通过训练数据构建模型，并利用评估样本进行性能测试。修改文件的使用可进一步提升实体链接的准确性，为相关研究提供可靠的数据支持。

背景与挑战

背景概述

chineseEL-datasets 是一个专门针对中文实体链接（Entity Linking, EL）任务的数据集，其基础来源于NLPCC 2013和2014年的数据集。该数据集由研究团队在2017年12月1日重新标注，以适配当时的中文维基百科数据。其主要目的是通过提供高质量的标注数据，推动中文实体链接技术的发展。该数据集的核心研究问题在于如何将文本中的实体提及（mentions）准确地链接到知识库中的对应实体，这一任务在自然语言处理领域具有重要意义，尤其是在信息抽取、问答系统和知识图谱构建等应用中。通过重新标注，研究团队旨在解决原始数据集中知识库不完整和过时的问题，从而为相关研究提供更可靠的数据支持。

当前挑战

chineseEL-datasets 面临的挑战主要体现在两个方面。首先，在领域问题方面，中文实体链接任务本身具有较高的复杂性，尤其是在处理歧义实体和未登录实体（NIL实体）时，如何准确识别和链接实体仍然是一个难题。其次，在数据集构建过程中，研究团队面临的主要挑战包括知识库的更新与标注一致性。由于原始知识库部分内容过时且不完整，重新标注过程中需要确保实体名称与中文维基百科的一致性，同时避免引入新的错误。此外，数据集中仍存在一些标注错误，需要进一步修正和优化，以确保数据的高质量和可靠性。

常用场景

经典使用场景

在自然语言处理领域，chineseEL-datasets主要用于中文实体链接任务的研究与开发。该数据集通过重新标注至2017年12月1日的中文维基百科，提供了丰富的实体链接样本，使得研究者能够在更现代的知识库基础上进行实验和模型训练。这一数据集特别适用于评估和改进实体链接算法，尤其是在处理中文文本时，能够有效提升模型的准确性和鲁棒性。

衍生相关工作

基于chineseEL-datasets，研究者们开发了多种先进的实体链接模型和算法。这些工作不仅推动了中文实体链接技术的发展，还为其他语言和领域的实体链接研究提供了借鉴。例如，一些研究通过引入深度学习技术，显著提升了实体链接的准确性和效率。此外，该数据集还被用于评估和比较不同实体链接方法的性能，为学术界和工业界提供了重要的参考。

数据集最近研究