CRECIL Corpus

github2022-07-10 更新2024-05-31 收录

下载链接：

https://github.com/bistu-nlp-lab/CRECIL

下载链接

链接失效反馈

官方服务：

资源简介：

本项目提出并描述了一个新的可自由使用的中文多方对话数据集，用于自动提取基于对话的角色关系。这些数据是从中国情景喜剧《我爱我家》的原始电视剧本中提取出来的，该电视剧以复杂的家庭为基础，用中文进行自然的对话。我们引入了基于全局角色关系图和对话角色指代关系的人工标注方法，生成了对话角色关系三元组。

This project proposes and describes a new freely available Chinese multi-party dialogue dataset designed for the automatic extraction of role-based relationships from conversations. The data is extracted from the original scripts of the Chinese sitcom 'I Love My Family,' which features natural dialogues in Chinese within a complex family setting. We introduced a manual annotation method based on global role relationship graphs and dialogue role reference relationships, generating dialogue role relationship triples.

创建时间：

2022-01-16

原始信息汇总

数据集概述

数据集名称

CRECIL Corpus

数据集目的

用于自动提取基于对话的角色关系。

数据来源

数据从中国情景喜剧《我爱我家》的原始电视剧本中提取。

数据集内容

Orginal_data: 包含标注的指代数据和关系数据，共标注了121个角色实体，30种角色与角色之间关系，以及8282条全局指代关系。
- relation: 存储全局角色关系类型和全局角色关系三元组。
- My_home.json: 包含全局指代信息。
My_home_data: 保存生成CRT三元组的过程及格式处理化后的数据信息。
- exportCRT.py: 生成角色关系三元组的策略。
- final.json: 最终格式化处理后的数据。
Final_data: 包含划分数据集的代码及结果。
- shuffle_data.py: 划分数据集的策略。
- train.json, dev.json, test.json: 实验数据。
bert: 保存对话关系抽取模型的相关代码。

数据集特点

引入基于全局角色关系图和对话角色指代关系的人工标注方法。
在实际的汉语会话中提取人物关系比在英语会话中更具挑战性。

搜集汇总

数据集介绍

构建方式

CRECIL Corpus数据集的构建基于中国情景喜剧《我爱我家》的原始电视剧本，通过人工标注方法提取对话中的角色关系。标注过程涉及全局角色关系图和对话角色指代关系，生成了角色关系三元组（CRT）和全局指代关系（RRT）。数据集分为多个文件夹，分别存储原始数据、处理后的数据、最终数据集以及模型代码，确保了数据的完整性和可追溯性。

使用方法

使用CRECIL Corpus数据集时，研究人员可以通过加载train.json、dev.json和test.json文件获取划分好的数据集。数据集中的角色关系三元组和全局指代关系可直接用于模型训练和评估。模型代码位于bert文件夹中，用户可通过运行run_classifier.py进行模型训练，并通过evaluate.py进行模型验证。数据集的格式清晰，便于研究人员快速上手并进行相关实验。

背景与挑战

背景概述

CRECIL Corpus数据集由研究人员基于中国情景喜剧《我爱我家》的原始剧本构建，旨在支持中文多方对话中角色关系的自动提取。该数据集创建于近期，主要研究人员通过引入全局角色关系图和对话角色指代关系的人工标注方法，生成了包含121个角色实体、30种角色关系以及8282条全局指代关系的丰富数据。这一数据集不仅为自然语言处理领域提供了新的研究资源，还特别针对中文对话中角色关系提取的复杂性提出了解决方案，推动了该领域的技术进步。

当前挑战

CRECIL Corpus数据集在构建过程中面临多重挑战。首先，中文对话中角色关系的提取相较于英语更为复杂，主要体现在角色指代的多样性和语境依赖性上。其次，数据集的构建需要精确标注角色关系三元组（CRT）和全局指代关系（RRT），这对标注的准确性和一致性提出了极高要求。此外，如何有效处理多方对话中的角色关系，尤其是在对话轮次频繁切换的情况下，保持角色关系的连贯性和一致性，也是数据集构建中的一大难题。这些挑战不仅影响了数据集的构建过程，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

CRECIL Corpus数据集在自然语言处理领域中的经典使用场景是用于自动提取中文多方对话中的角色关系。该数据集通过从中国情景喜剧《我爱我家》的剧本中提取对话，结合全局角色关系图和对话角色指代关系的人工标注方法，生成了对话角色关系三元组。这一数据集特别适用于研究中文对话中的复杂角色关系，尤其是在多角色交互的场景下，能够有效支持角色关系抽取模型的训练与评估。

解决学术问题

CRECIL Corpus解决了中文多方对话中角色关系自动提取的难题。相较于英语对话，中文对话中的角色关系提取更具挑战性，主要由于中文的复杂语法结构和丰富的指代关系。该数据集通过提供高质量的标注数据，帮助研究人员开发更精确的角色关系抽取模型，推动了中文自然语言处理领域的发展，尤其是在对话系统和情感分析等应用场景中具有重要意义。

实际应用

在实际应用中，CRECIL Corpus数据集被广泛用于对话系统的开发与优化。通过分析对话中的角色关系，系统能够更好地理解对话的上下文，从而提升对话生成的准确性和连贯性。此外，该数据集还可用于情感分析、角色行为预测等领域，帮助智能助手、客服机器人等应用更好地模拟人类对话行为，提升用户体验。

数据集最近研究