Wikipedia Annotated Corpus
收藏github2024-05-01 更新2024-05-31 收录
下载链接:
https://github.com/ku-nlp/WikipediaAnnotatedCorpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多种语言学标注的日文维基百科文章文本语料库,标注内容包括词法、命名实体、依存关系、谓词-论元结构(包括零照应)和共指。
This is a Japanese Wikipedia article text corpus containing various linguistic annotations, including lexical, named entities, dependency relations, predicate-argument structures (including zero anaphora), and coreference.
创建时间:
2022-10-03
原始信息汇总
数据集概述
数据集名称
Wikipedia Annotated Corpus
数据集内容
- 语言:日语
- 类型:维基百科文章
- 注释类型:形态学、命名实体、依赖关系、谓词-论元结构(包括零回指)、共指关系
数据集结构
knp/:包含形态学、命名实体、依赖关系、谓词-论元结构和共指关系的注释org/:原始数据集id/:文档ID文件,提供训练/开发/测试分割
数据集统计
| # of documents | # of sentences | # of morphemes | # of named entities | # of predicates | # of coreferring mentions | |
|---|---|---|---|---|---|---|
| train | 1,517 | 3,514 | 86,216 | 5,681 | 23,207 | 19,356 |
| dev | 100 | 248 | 6,353 | 423 | 1,702 | 1,435 |
| test | 200 | 455 | 11,123 | 800 | 2,875 | 2,533 |
| total | 1,817 | 4,217 | 103,692 | 6,904 | 27,784 | 23,324 |
注释格式
- 格式:KNP格式
- 示例:
text
S-ID:wiki000010000-1
- 2D
- 3D 太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0 は は は 助詞 9 副助詞 2 * 0 * 0
- 2D
- 2D 京都 きょうと 京都 名詞 6 地名 4 * 0 * 0
- 3D NE:ORGANIZATION:京都大学 大学 だいがく 大学 名詞 6 普通名詞 1 * 0 * 0 に に に 助詞 9 格助詞 1 * 0 * 0
- -1D
- -1D <rel type="ガ" target="太郎" sid="w201106-0000010001-1" id="0"/><rel type="ニ" target="大学" sid="w201106-0000010001-1" id="2"/> 行った いった 行く 動詞 2 * 0 子音動詞カ行促音便形 3 タ形 10 EOS
许可证
CC BY-SA 4.0
搜集汇总
数据集介绍

构建方式
该数据集的构建基于日本维基百科文章,通过多种语言学注释进行丰富,包括词法、命名实体、依存关系、谓词-论元结构以及共指关系。这些注释遵循了[ku-nlp/KWDLC](https://github.com/ku-nlp/KWDLC)仓库中的指南,确保了数据集的高质量和一致性。数据集的构建过程涉及对原始文本的精细处理,通过专业的语言学分析工具进行多层次的标注,从而形成了一个结构化的语言资源库。
特点
该数据集的显著特点在于其丰富的语言学注释,涵盖了从词法到共指关系的多个层面,为自然语言处理研究提供了全面的支持。此外,数据集的划分包括训练集、开发集和测试集,确保了其在模型训练和评估中的实用性。数据格式采用KNP格式,便于解析和处理,同时提供了Python库[rhoknp](https://github.com/ku-nlp/rhoknp)以简化注释的访问。
使用方法
使用该数据集时,用户可以通过提供的KNP格式直接访问注释,或利用[rhoknp](https://github.com/ku-nlp/rhoknp)库从Python环境中直观地获取注释信息。数据集的文件结构清晰,包括注释后的语料库、原始语料库以及文档ID文件,便于用户根据需求进行数据分割和处理。通过这些工具和资源,用户可以高效地进行自然语言处理任务的开发和评估。
背景与挑战
背景概述
Wikipedia Annotated Corpus是由京都大学言語メディア研究室开发的一个日语文本语料库,主要包含来自维基百科的文章,并附有多种语言学注释。这些注释涵盖了词法、命名实体、依存关系、谓词-论元结构以及共指关系等多个方面。该数据集的核心研究问题在于如何通过丰富的语言学注释,提升自然语言处理任务的性能,尤其是在日语语境下的应用。自2014年以来,该数据集已成为日语自然语言处理领域的重要资源,为研究者提供了深入分析和模型训练的基础。
当前挑战
Wikipedia Annotated Corpus在构建过程中面临了多重挑战。首先,日语作为一种复杂的语言,其词法和句法结构具有高度灵活性,导致注释过程复杂且耗时。其次,命名实体和共指关系的标注需要高度专业化的知识,确保注释的准确性和一致性。此外,数据集的规模和多样性也带来了存储和处理上的技术难题。在应用层面,如何有效利用这些丰富的注释信息,提升自然语言处理模型的性能,仍然是一个亟待解决的问题。
常用场景
经典使用场景
Wikipedia Annotated Corpus 数据集的经典使用场景主要集中在自然语言处理领域,尤其是日语文本的语义分析和结构解析。该数据集通过提供丰富的语言学标注,包括词法、命名实体、依存关系、谓词-论元结构以及共指关系,为研究者提供了深入理解日语文本结构和语义的宝贵资源。研究者可以利用这些标注进行句法分析、语义角色标注、命名实体识别等任务,从而推动日语自然语言处理技术的发展。
实际应用
在实际应用中,Wikipedia Annotated Corpus 数据集被广泛用于开发和优化日语自然语言处理工具和系统。例如,它可以用于构建日语语法检查器、自动摘要生成系统、机器翻译工具等。此外,该数据集还为日语信息检索、文本分类和情感分析等应用提供了基础支持。通过利用这些丰富的标注信息,开发者能够构建更加精确和高效的日语处理应用,提升用户体验和系统性能。
衍生相关工作
基于 Wikipedia Annotated Corpus 数据集,研究者们开展了多项经典工作,推动了日语自然语言处理领域的发展。例如,有研究利用该数据集进行日语句法解析和语义角色标注,提出了新的模型和算法。此外,该数据集还被用于开发日语命名实体识别系统和共指消解工具,显著提升了这些任务的性能。这些衍生工作不仅丰富了日语自然语言处理的理论基础,还为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成



