Wikipedia Annotated Corpus

github2024-05-01 更新2024-05-31 收录

下载链接：

https://github.com/ku-nlp/WikipediaAnnotatedCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多种语言学标注的日文维基百科文章文本语料库，标注内容包括词法、命名实体、依存关系、谓词-论元结构（包括零照应）和共指。

This is a Japanese Wikipedia article text corpus containing various linguistic annotations, including lexical, named entities, dependency relations, predicate-argument structures (including zero anaphora), and coreference.

创建时间：

2022-10-03

原始信息汇总

数据集概述

数据集名称

Wikipedia Annotated Corpus

数据集内容

语言：日语
类型：维基百科文章
注释类型：形态学、命名实体、依赖关系、谓词-论元结构（包括零回指）、共指关系

数据集结构

knp/：包含形态学、命名实体、依赖关系、谓词-论元结构和共指关系的注释
org/：原始数据集
id/：文档ID文件，提供训练/开发/测试分割

数据集统计

	# of documents	# of sentences	# of morphemes	# of named entities	# of predicates	# of coreferring mentions
train	1,517	3,514	86,216	5,681	23,207	19,356
dev	100	248	6,353	423	1,702	1,435
test	200	455	11,123	800	2,875	2,533
total	1,817	4,217	103,692	6,904	27,784	23,324

注释格式

格式：KNP格式
示例： text
S-ID:wiki000010000-1
- 2D
- 3D 太郎たろう太郎名詞 6 人名 5 * 0 * 0 ははは助詞 9 副助詞 2 * 0 * 0
- 2D
- 2D 京都きょうと京都名詞 6 地名 4 * 0 * 0
- 3D NE:ORGANIZATION:京都大学大学だいがく大学名詞 6 普通名詞 1 * 0 * 0 ににに助詞 9 格助詞 1 * 0 * 0
- -1D
- -1D <rel type="ガ" target="太郎" sid="w201106-0000010001-1" id="0"/><rel type="ニ" target="大学" sid="w201106-0000010001-1" id="2"/> 行ったいった行く動詞 2 * 0 子音動詞カ行促音便形 3 タ形 10 EOS

许可证

CC BY-SA 4.0

搜集汇总

数据集介绍

构建方式

该数据集的构建基于日本维基百科文章，通过多种语言学注释进行丰富，包括词法、命名实体、依存关系、谓词-论元结构以及共指关系。这些注释遵循了[ku-nlp/KWDLC](https://github.com/ku-nlp/KWDLC)仓库中的指南，确保了数据集的高质量和一致性。数据集的构建过程涉及对原始文本的精细处理，通过专业的语言学分析工具进行多层次的标注，从而形成了一个结构化的语言资源库。

特点

该数据集的显著特点在于其丰富的语言学注释，涵盖了从词法到共指关系的多个层面，为自然语言处理研究提供了全面的支持。此外，数据集的划分包括训练集、开发集和测试集，确保了其在模型训练和评估中的实用性。数据格式采用KNP格式，便于解析和处理，同时提供了Python库[rhoknp](https://github.com/ku-nlp/rhoknp)以简化注释的访问。

使用方法

使用该数据集时，用户可以通过提供的KNP格式直接访问注释，或利用[rhoknp](https://github.com/ku-nlp/rhoknp)库从Python环境中直观地获取注释信息。数据集的文件结构清晰，包括注释后的语料库、原始语料库以及文档ID文件，便于用户根据需求进行数据分割和处理。通过这些工具和资源，用户可以高效地进行自然语言处理任务的开发和评估。

背景与挑战

背景概述

Wikipedia Annotated Corpus是由京都大学言語メディア研究室开发的一个日语文本语料库，主要包含来自维基百科的文章，并附有多种语言学注释。这些注释涵盖了词法、命名实体、依存关系、谓词-论元结构以及共指关系等多个方面。该数据集的核心研究问题在于如何通过丰富的语言学注释，提升自然语言处理任务的性能，尤其是在日语语境下的应用。自2014年以来，该数据集已成为日语自然语言处理领域的重要资源，为研究者提供了深入分析和模型训练的基础。

当前挑战

Wikipedia Annotated Corpus在构建过程中面临了多重挑战。首先，日语作为一种复杂的语言，其词法和句法结构具有高度灵活性，导致注释过程复杂且耗时。其次，命名实体和共指关系的标注需要高度专业化的知识，确保注释的准确性和一致性。此外，数据集的规模和多样性也带来了存储和处理上的技术难题。在应用层面，如何有效利用这些丰富的注释信息，提升自然语言处理模型的性能，仍然是一个亟待解决的问题。

常用场景

经典使用场景

Wikipedia Annotated Corpus 数据集的经典使用场景主要集中在自然语言处理领域，尤其是日语文本的语义分析和结构解析。该数据集通过提供丰富的语言学标注，包括词法、命名实体、依存关系、谓词-论元结构以及共指关系，为研究者提供了深入理解日语文本结构和语义的宝贵资源。研究者可以利用这些标注进行句法分析、语义角色标注、命名实体识别等任务，从而推动日语自然语言处理技术的发展。

实际应用

在实际应用中，Wikipedia Annotated Corpus 数据集被广泛用于开发和优化日语自然语言处理工具和系统。例如，它可以用于构建日语语法检查器、自动摘要生成系统、机器翻译工具等。此外，该数据集还为日语信息检索、文本分类和情感分析等应用提供了基础支持。通过利用这些丰富的标注信息，开发者能够构建更加精确和高效的日语处理应用，提升用户体验和系统性能。

衍生相关工作

基于 Wikipedia Annotated Corpus 数据集，研究者们开展了多项经典工作，推动了日语自然语言处理领域的发展。例如，有研究利用该数据集进行日语句法解析和语义角色标注，提出了新的模型和算法。此外，该数据集还被用于开发日语命名实体识别系统和共指消解工具，显著提升了这些任务的性能。这些衍生工作不仅丰富了日语自然语言处理的理论基础，还为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

Wikipedia Annotated Corpus

数据集概述

数据集名称

数据集内容

数据集结构

数据集统计

注释格式

S-ID:wiki000010000-1

许可证