KoCoNovel

Name: KoCoNovel
Creator: 首尔国立大学
License: 暂无描述

github2024-05-31 收录

下载链接：

https://github.com/storidient/KoCoNovel

下载链接

链接失效反馈

官方服务：

资源简介：

KoCoNovel由首尔国立大学的研究团队创建，旨在为韩国文学文本中的字符共指解析提供丰富的数据支持。该数据集包含了50部小说中的178K个Token，是继NIKL语料库之后的第二大公共共指解析语料库，并且是第一个基于文学作品的共指数据集。KoCoNovel的独特之处在于，其24%的角色提及为单个普通名词，没有修饰语，这一特征深受韩国称谓文化的影响，该文化倾向于使用表示社会关系和亲属关系的术语，而非个人姓名。数据集提供了四种不同版本的数据集，从全知视角和读者视角进行注释，以及将多个实体作为独立或重叠实体处理。KoCoNovel的发布，不仅填补了韩国文学文本共指数据集的空白，也为自然语言处理领域的研究者提供了宝贵的资源。

KoCoNovel was developed by a research team at Seoul National University, aiming to provide robust data support for character coreference resolution in Korean literary texts. This dataset contains 178K Tokens across 50 novels, making it the second-largest public coreference resolution corpus after the NIKL Corpus, and the first coreference dataset based on literary works. A distinctive feature of KoCoNovel is that 24% of character mentions are single common nouns without modifiers, a trait deeply influenced by Korean address and kinship cultural conventions, which prefer terms denoting social relationships and kinship over personal names. The dataset offers four distinct versions, annotated from either the omniscient or reader perspective, with multiple entities treated as either independent or overlapping entities. The release of KoCoNovel not only fills the gap in coreference datasets for Korean literary texts, but also provides a valuable resource for researchers in the field of natural language processing.

提供机构：

首尔国立大学

原始信息汇总

数据集概述

数据集名称

KoCoNovel

数据集描述

KoCoNovel 是一个基于50部现代和当代韩国小说的角色共指数据集。该数据集包含了经过语法修正的小说版本，并针对角色共指进行了标注，提供了四种选项类型，以及所有直接引语的说话者标注。

数据来源

数据集的文本来源于Wikisource的公共领域文本。预处理包括纠正文本中的拼写错误和错误的换行，以及调整拼写以符合现代韩语语法。

数据和标注

标注类型：
- [Reader/Omniscient]：从全知作者或读者的角度
- [Separate/Overlapped]：多个实体被处理为独立实体（例如，[‘我们’], [‘我’], [‘你’]）或重叠实体（例如，[‘我们’, ‘我’], [‘我们’, ‘你’]）

引用信息

若使用此数据集，请引用以下工作：

@misc{kim2024koconovel, title={KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels}, author={Kyuhee Kim and Surin Lee and Sangah Lee}, year={2024}, eprint={2404.01140}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，字符核心ference的标注对于理解文本中的人物关系至关重要。KoCoNovel数据集的构建，是基于50部现代和当代韩文小说的公共领域文本，这些文本源自Wikisource。构建过程中，研究团队对文本进行了排版和语法修正，并标注了四种类型的字符核心ference选项，以及所有直接引语的说话人标注，以适应不同的处理和集成需求。

使用方法

使用KoCoNovel数据集时，用户可以依据数据集中的四种核心ference选项进行字符识别和关系解析。数据集的两种文件格式使得其易于在多种自然语言处理框架中应用。用户在利用该数据集进行相关研究时，应遵循数据使用规范，并在成果中引用相关论文，以尊重数据集创建者的知识产权。

背景与挑战

背景概述

KoCoNovel数据集，基于50部现代和当代韩文小说构建，专注于人物指代消解的领域。该数据集的创建，旨在推动自然语言处理领域对于韩文小说人物指代现象的深入理解和研究。由Kyuhee Kim、Surin Lee和Sangah Lee等研究人员在2024年提出，并在arXiv上发表了相关论文。KoCoNovel数据集以其独特的视角和详尽的标注，为相关领域的研究提供了宝贵的资源，对于提升韩文文本处理和理解能力具有重要影响力。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：确保语料的准确性和代表性，这需要对公版文本进行细致的预处理，包括校正错别字和不正确的换行，以及调整拼写以符合现代韩文语法。在标注方面，数据集面临的挑战是如何准确标注人物指代，尤其是在处理读者/全知视角、区分独立实体与重叠实体等方面，需要高度的语言理解能力和细致的标注工作。此外，数据集的构建还需解决如何提供易于处理和集成的数据格式，如CoNLL和JSONL格式，以及为直接引语添加发言者分配标注等问题。

常用场景

经典使用场景

在自然语言处理领域中，KoCoNovel数据集被广泛应用于字符核心ference的识别与处理。其基于现代和当代韩语小说构建，为研究者提供了一个独特的视角，以探索和理解韩语小说中的角色指代现象。经典的使用场景包括利用该数据集对核心ference系统进行训练和评估，进而提高对文本中角色关系的理解和分析能力。

解决学术问题

KoCoNovel数据集解决了传统核心ference标注数据集在语言和文化特异性方面的不足。通过提供具有韩语语法和文化特色的标注数据，它极大地促进了韩语自然语言处理技术的发展，为研究跨语言角色指代的一致性和差异性提供了宝贵的资源。

实际应用

在实际应用中，KoCoNovel数据集可用于增强机器翻译系统中对角色关系的处理，提高内容摘要和文本生成系统中对角色一致性维护的能力，以及改善信息检索系统对文本中人物关系的理解，从而提升用户体验。

数据集最近研究