CEDCC

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/cubenlp/CEDCC_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本论文介绍了中国作文语篇连贯性语料库（CEDCC），这是一个用于评估语篇连贯性的多任务数据集。现有研究往往关注语篇连贯性的孤立维度，CEDCC通过整合连贯性评分、主题连续性和语篇关系来填补这一空白。这种方法，连同详细的标注，捕捉了现实世界文本的细微差别，并促进了中文语篇连贯性分析的进展。我们的贡献包括CEDCC的开发、为后续研究建立的基准，以及连贯性对语篇关系识别和自动作文评分影响的展示。

This paper presents the Chinese Essay Discourse Coherence Corpus (CEDCC), a multi-task dataset designed for evaluating discourse coherence. Existing studies typically focus on isolated dimensions of discourse coherence, and CEDCC fills this critical gap by integrating coherence scores, topic continuity, and discourse relations. This approach, paired with fine-grained annotations, captures the subtle nuances of real-world texts and advances research in Chinese discourse coherence analysis. Our contributions encompass the development of the CEDCC corpus, the establishment of standardized benchmarks for subsequent research, and the demonstration of the impact of coherence on discourse relation recognition and automatic essay scoring.

创建时间：

2023-10-17

原始信息汇总

数据集概述

数据集名称: CEDCC_corpus
数据集目的: 用于评估中文作文的语篇连贯性，包括结构、主题和逻辑分析。
数据集特点:
- 整合了语篇连贯性的多个维度，如语篇评分、主题连续性和语篇关系。
- 包含详细的标注，以捕捉真实文本的细微差别。
数据集贡献:
- 开发了CEDCC数据集。
- 建立了研究基线。
- 展示了连贯性对语篇关系识别和自动作文评分的影响。
相关论文:
- 论文标题: "A Multi-Task Dataset for Assessing Discourse Coherence in Chinese Essays: Structure, Theme, and Logic Analysis"
- 发表于: EMNLP 2023
- 论文链接: EMNLP 2023论文
数据集可用性:
- 数据集及相关代码可在GitHub获取。

搜集汇总

数据集介绍

构建方式

CEDCC数据集的构建基于对中国作文的语篇连贯性进行多任务评估，涵盖了结构、主题和逻辑分析。该数据集通过整合连贯性评分、主题连续性和语篇关系，填补了现有研究中对语篇连贯性单一维度关注的空白。详细的标注和多维度的分析使得CEDCC能够捕捉真实文本中的细微差别，为中文语篇连贯性分析提供了丰富的资源。

使用方法

CEDCC数据集可用于多种自然语言处理任务，包括但不限于语篇连贯性评估、主题连续性分析和语篇关系识别。研究者可以通过该数据集训练和验证模型，以提升自动化作文评分和语篇分析的准确性。数据集的详细标注和多任务设计为模型训练提供了丰富的特征，有助于提高模型的泛化能力和实际应用效果。

背景与挑战

背景概述

CEDCC（Chinese Essay Discourse Coherence Corpus）数据集由Wu Hongyi等人于2023年创建，旨在解决中文作文中话语连贯性评估的多维度问题。该数据集通过整合连贯性评分、主题连续性和话语关系分析，填补了现有研究中对连贯性单一维度关注的空白。CEDCC的构建不仅为中文话语连贯性分析提供了丰富的资源，还为自动化作文评分和话语关系识别等任务提供了基准，推动了自然语言处理领域在该方向的研究进展。

当前挑战

CEDCC数据集面临的挑战主要集中在多任务处理的复杂性和数据标注的精细度上。首先，整合连贯性评分、主题连续性和话语关系分析需要处理多层次的语义信息，这对模型的复杂度和计算资源提出了较高要求。其次，数据标注过程中，如何准确捕捉和标注真实文本中的细微连贯性差异，确保标注的一致性和可靠性，是构建过程中的一大难点。此外，如何在多任务学习框架下有效利用该数据集进行模型训练，以提升话语连贯性评估的准确性，也是未来研究中需要解决的关键问题。

常用场景

经典使用场景

CEDCC数据集在评估中文作文的语篇连贯性方面展现了其经典应用场景。通过整合连贯性评分、主题连续性和语篇关系分析，该数据集为研究者提供了一个多任务的学习框架。这一框架不仅能够评估作文的整体连贯性，还能深入分析文本的结构、主题和逻辑关系，从而为中文作文的自动评分和语篇分析提供了坚实的基础。

解决学术问题

CEDCC数据集解决了中文语篇连贯性研究中的多个学术问题。传统研究往往只关注语篇连贯性的单一维度，而CEDCC通过集成连贯性评分、主题连续性和语篇关系分析，填补了这一研究空白。该数据集的详细标注和多任务设计，使得研究者能够更全面地理解和评估中文作文的连贯性，推动了中文语篇分析领域的进步。

实际应用

在实际应用中，CEDCC数据集为中文作文的自动评分系统和语篇分析工具提供了重要的支持。通过该数据集的训练，这些系统能够更准确地评估作文的连贯性，从而提高评分的一致性和公正性。此外，该数据集还可用于开发和优化教育辅助工具，帮助学生和教师更好地理解和改进作文的语篇结构和逻辑。

数据集最近研究