Annotated FKC Corpus

github2023-12-18 更新2024-05-31 收录

下载链接：

https://github.com/ku-nlp/AnnotatedFKCCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多种语言注释的日语文本数据集，主要收集了来自日本的消费者投诉文档。数据集涵盖了多个领域，如消费电子、医院、信息技术、超市、旅行和交通等，共包含654份文档，对应1,282个句子。注释包括形态学、命名实体、依赖关系、谓词-论元结构和共指关系等。

This is a Japanese text dataset with multilingual annotations, primarily collecting consumer complaint documents from Japan. The dataset covers multiple domains including consumer electronics, hospitals, information technology, supermarkets, travel, transportation, and others. It contains a total of 654 documents, corresponding to 1,282 sentences. The annotations include various linguistic annotation tasks such as morphology, named entities, dependency relations, predicate-argument structures, and coreference relations.

创建时间：

2021-01-18

原始信息汇总

数据集概述

名称：Annotated FKC Corpus

描述：这是一个包含多种语言注释的日语文本语料库，主要由投诉（Fuman）文档组成。FKC代表Fuman Kaitori Center，是一家收集和分析日本消费者意见的服务机构。该语料库包含来自不同领域的投诉文档，如消费者电子产品、医院、信息技术（IT）、超市、旅行和交通等。

规模：包含654个文档，总计1,282个句子。

语言注释

类型：形态学、命名实体、依存关系、谓词-论元结构（包括零回指）和共指。

方法：所有注释均通过手动修改自动分析的结果来完成，使用的是形态分析器Juman++和依存、案例结构及回指分析器。

分布文件

knp/：包含形态学、命名实体、依存关系、谓词-论元结构和共指注释的语料库。
org/：原始语料库。
id/：文档ID文件，提供训练/测试分割。

统计数据

	# of documents	# of sentences	# of morphemes	# of named entities	# of predicates	# of coreferring mentions
train	454	885	12,496	72	4,105	565
dev	100	195	2,653	9	867	146
test	100	202	2,850	16	961	140
total	654	1,282	17,999	97	5,933	851

注释格式

注释格式详细描述了语料库中包含的形态学、命名实体、依存关系、谓词-论元结构和共指的注释方式。具体格式说明可在KWDLC文档中找到。

版权与许可

版权：投诉文档的版权属于Insight Tech Inc.，注释信息的版权属于Kurohashi Lab, Kyoto University。
许可：该语料库遵循CC BY-NC-SA 4.0许可，使用目的限于学术研究。

搜集汇总

数据集介绍

构建方式

Annotated FKC Corpus的构建基于日本消费者意见数据收集与分析服务Fuman Kaitori Center（FKC）的投诉文档。该数据集涵盖了多种领域的投诉文档，如消费电子、医院、信息技术、超市、旅行和交通等。数据集包含654个文档，对应1,282个句子。所有文档均经过形态学、命名实体、依存关系、谓词-论元结构（包括零回指）以及共指关系的多维度标注。这些标注是在自动分析工具Juman++和依存、格结构及回指分析器的基础上，通过人工修改完成的。

特点

Annotated FKC Corpus的特点在于其丰富的语言学标注层次和多领域的覆盖范围。数据集不仅提供了形态学、命名实体、依存关系等基础标注，还包含了复杂的谓词-论元结构和共指关系标注，尤其是对零回指的处理，为自然语言处理研究提供了宝贵资源。此外，数据集的文档涵盖了多个领域，能够支持跨领域的语言分析和模型训练。

使用方法

Annotated FKC Corpus的使用方法主要围绕其丰富的标注信息展开。用户可以通过`knp/`目录访问包含完整标注的语料库，而`org/`目录则提供了原始文档。数据集还提供了训练集、开发集和测试集的划分文件，便于模型训练与评估。标注格式遵循KWDLC的规范，用户可参考相关文档进行解析。该数据集适用于自然语言处理任务，如依存分析、共指消解、命名实体识别等，尤其适合研究日语复杂句法结构和语义关系。

背景与挑战

背景概述

Annotated FKC Corpus是由日本京都大学黑桥实验室与Insight Tech Inc.合作构建的一个日语文本语料库，专注于消费者投诉文档的多层次语言标注。该语料库于2014年首次发布，涵盖了多种领域的投诉文档，如消费电子、医院、信息技术、超市、旅行和交通等。其核心研究问题在于通过细致的语言标注（包括形态学、命名实体、依存关系、谓词-论元结构及共指关系）来支持自然语言处理任务，如文本理解和信息抽取。该语料库的构建为日语自然语言处理领域提供了重要的数据支持，尤其在处理复杂句法和语义结构方面具有显著影响力。

当前挑战

Annotated FKC Corpus在构建过程中面临多重挑战。首先，消费者投诉文档的多样性和复杂性要求标注者具备高度的语言学知识和领域背景，以确保标注的准确性和一致性。其次，日语中的零指代现象（zero anaphora）和复杂的谓词-论元结构增加了标注的难度，需依赖自动分析工具（如Juman++）并结合人工修正。此外，语料库的规模相对较小，限制了其在深度学习模型中的应用效果。尽管这些挑战存在，该语料库仍为日语自然语言处理研究提供了宝贵的资源，推动了相关领域的技术进步。

常用场景

经典使用场景

Annotated FKC Corpus 是一个包含多种语言注释的日语文本语料库，主要用于自然语言处理领域的研究。该语料库的经典使用场景包括日语文本的形态分析、命名实体识别、依存句法分析、谓词-论元结构分析以及共指消解等任务。研究者可以利用这些丰富的注释信息，开发或优化日语自然语言处理模型，特别是在处理消费者投诉文本时，能够更好地理解和分析复杂的语言结构。

解决学术问题

Annotated FKC Corpus 解决了日语自然语言处理中的多个关键学术问题。首先，它提供了详细的形态和句法注释，帮助研究者深入理解日语的复杂语法结构。其次，通过标注命名实体和共指关系，该语料库为信息抽取和文本理解任务提供了重要支持。此外，其包含的谓词-论元结构分析数据，为零指代消解等难题提供了研究基础，推动了日语自然语言处理技术的发展。

衍生相关工作

Annotated FKC Corpus 的发布催生了一系列相关研究工作。例如，基于该语料库的研究成果被应用于改进日语依存句法分析器和命名实体识别系统。此外，该语料库为零指代消解和谓词-论元结构分析提供了基准数据，推动了这些领域的技术进步。相关研究还扩展到了跨语言自然语言处理任务，为多语言文本分析提供了参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集