Kyoto University Text Corpus

github2024-04-25 更新2024-05-31 收录

下载链接：

https://github.com/ku-nlp/KyotoCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个手动注释了多种语言信息的文本语料库，包含约40,000个来自1995年Mainichi报纸的句子，具有形态和句法注释。其中约20,000个句子还注释了谓词-论元结构，包括零回指和共指。

This is a manually annotated text corpus containing multilingual information, comprising approximately 40,000 sentences from the 1995 Mainichi newspaper, with morphological and syntactic annotations. About 20,000 of these sentences are also annotated with predicate-argument structures, including zero anaphora and coreference.

创建时间：

2019-11-10

原始信息汇总

数据集概述

名称：Kyoto University Text Corpus

描述：该数据集是一个手工标注了多种语言信息的文本语料库，包含约40,000个来自1995年Mainichi报纸的句子，这些句子进行了形态和句法标注。其中约20,000个句子还标注了谓词-论元结构，包括零代词和共指关系。

数据集内容

原始文本：数据集不包含原始句子，仅包含标注信息。
标注指南：形态和依赖关系的标注指南在syn_guideline.pdf中，谓词-论元结构和共指关系的标注指南在rel_guideline.pdf中。
分布文件：
- auto_conv：语料库转换脚本
- dat/num/：分布的标注数据
- dat/syn/：形态和依赖关系标注的语料库（待生成）
- dat/rel/：形态、依赖关系、谓词-论元结构和共指关系标注的语料库（待生成）
- doc：标注指南
- src：语料库转换脚本
- id：文档ID列表
  - all.id：所有ID（2927）
  - train.id：解析训练ID（2727）
  - test.id：PAS分析和解析测试ID（200）
  - full：谓词-论元结构和共指关系标注的语料库ID列表
    - all.id：所有ID（2261）
    - train.id：PAS分析训练ID（1930）
    - dev.id：PAS分析开发ID（131）
    - test.id：PAS分析测试ID（200）
  - syntax-only：仅句法标注的语料库ID列表
    - all.id：所有ID（666）

数据集格式

文件格式：UTF-8编码的*.knp文件。
结构：
- 首行表示句子ID。
- 后续行中，以"*"开头的行表示“文節”，以"+"开头的行表示基本短语，其他行表示词素。
- 词素行包含表面字符串、读音、词根、词性（POS）、细粒度POS、结合类型和结合形式。
- “文節”行表示依赖关系，基本短语行包含各种关系的标注。
- 关系标注使用<rel>标签，包含类型、目标、sid和id属性。

使用条款

免责声明：开发者（京都大学Kurohashi实验室和早稻田大学Kawahara实验室）不对使用该语料库造成的任何损害负责。
商业使用：如用于商业目的，需在相关文档或材料中声明使用了京都大学文本语料库。

搜集汇总

数据集介绍

构建方式

京都大学文本语料库（Kyoto University Text Corpus）的构建基于1995年《每日新闻》的约40,000条句子，经过人工标注，涵盖了形态学和句法学的信息。其中，约20,000条句子进一步标注了谓词-论元结构，包括零代词和共指关系。语料库的标注遵循详细的指南，分别描述了形态学、依存关系、谓词-论元结构和共指关系的标注规则。通过获取《每日新闻》1995年CD-ROM并使用提供的转换脚本，用户可以恢复完整的标注语料库。

特点

该语料库的显著特点在于其丰富的语言学标注信息，涵盖了形态学、句法依存关系、谓词-论元结构以及共指关系。这些标注信息为自然语言处理研究提供了宝贵的资源，尤其是在日语语言学和计算语言学领域。此外，语料库的标注格式与KNP解析器和京都大学网络文档语料库（KWDLC）保持一致，便于跨语料库的研究和应用。

使用方法

使用该语料库时，用户需首先获取《每日新闻》1995年CD-ROM，并通过提供的转换脚本将标注信息与原始文本结合，生成完整的标注语料库。生成的语料库文件以UTF-8编码存储，包含形态学、句法依存关系、谓词-论元结构和共指关系的详细标注。用户可根据研究需求，选择不同的标注层次进行分析，如仅使用句法标注或结合谓词-论元结构进行更深入的语义分析。

背景与挑战

背景概述

京都大学文本语料库（Kyoto University Text Corpus）是由京都大学黑桥实验室和早稻田大学河原实验室共同开发的一项重要语言资源。该语料库创建于1995年，主要基于《每日新闻》1995年的文章，包含了约40,000个句子的形态和句法标注，其中约20,000个句子进一步标注了谓词-论元结构、零代词和共指关系。该语料库的构建旨在为日语自然语言处理研究提供丰富的标注数据，推动日语句法分析、语义分析等领域的发展。通过详细的标注规范和多层次的语义信息，该语料库已成为日语语言学和计算语言学研究的重要基础资源。

当前挑战

京都大学文本语料库在构建过程中面临了多重挑战。首先，手动标注大规模语料库需要耗费大量时间和人力，尤其是在处理复杂的谓词-论元结构和共指关系时，标注的准确性和一致性尤为关键。其次，语料库的构建依赖于《每日新闻》1995年的原始数据，获取这些数据的过程复杂且需要额外的许可，增加了数据集的获取难度。此外，语料库的标注格式和规范需要与现有的日语解析工具（如JUMAN和KNP）兼容，确保其在实际应用中的有效性。最后，语料库的开放性和商业使用条款也带来了一定的法律和伦理挑战，特别是在涉及原始新闻文本的版权问题时，需要与相关机构进行协调。

常用场景

经典使用场景

京都大学文本语料库（Kyoto University Text Corpus）以其丰富的语言学标注信息，成为自然语言处理领域中研究日语形态学、句法和语义结构的重要资源。该语料库包含约40,000条1995年《每日新闻》的句子，其中约20,000条句子被标注了谓词-论元结构、零照应和共指信息。这些标注信息使得该语料库在日语句法分析、语义角色标注以及共指消解等任务中具有广泛的应用价值。

衍生相关工作

基于京都大学文本语料库，研究者们开发了多项经典工作。例如，Kurohashi和Nagao在1998年提出了基于该语料库的日语句法解析系统，显著提升了日语句法分析的准确性。此外，Kawahara等人在2002年基于该语料库开发了日语相关性标注语料库，进一步推动了日语语义分析的研究。这些工作不仅丰富了日语自然语言处理的理论基础，还为后续的研究提供了重要的技术支持。

数据集最近研究