Grammarly Corpus of Discourse Coherence (GCDC)
收藏arXiv2018-05-14 更新2024-06-21 收录
下载链接:
https://github.com/aylai/GCDC-corpus
下载链接
链接失效反馈官方服务:
资源简介:
Grammarly Corpus of Discourse Coherence (GCDC) 是一个用于评估真实世界文本中话语连贯性的数据集,由伊利诺伊大学厄巴纳-香槟分校创建。该数据集包含来自四个不同领域的4800条文本,包括论坛帖子、电子邮件和产品评论等,每条文本都由专家标注者进行了连贯性评分。GCDC数据集的创建旨在通过大规模评估领先的话语连贯性算法,解决现有研究中缺乏真实世界数据评估的问题。数据集的应用领域广泛,旨在提高自然语言生成系统的质量,并为写作提供反馈,如识别话题间的缺失过渡或突出组织不良的段落。
The Grammarly Corpus of Discourse Coherence (GCDC) is a benchmark dataset designed for evaluating discourse coherence in real-world texts, developed by the University of Illinois Urbana-Champaign. It includes 4,800 texts across four distinct domains, such as forum posts, emails, product reviews, and other similar text genres. Each text has been assigned a coherence score by expert annotators. The primary purpose of constructing the GCDC dataset is to address the shortage of real-world evaluation data in existing research, via large-scale benchmarking of state-of-the-art discourse coherence algorithms. This dataset has wide-ranging applications, aiming to improve the quality of natural language generation systems and provide writing feedback, for example, identifying missing transitions between topics or highlighting poorly organized paragraphs.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2018-05-14
搜集汇总
数据集介绍

构建方式
在语篇连贯性研究领域,传统数据集多依赖于专业编辑文本或人工构造的句子排序任务,难以反映真实场景下的连贯性特征。Grammarly语篇连贯性语料库(GCDC)的构建突破了这一局限,其数据源自四个日常写作领域:雅虎问答论坛帖子、希拉里·克林顿办公室邮件、安然公司邮件以及Yelp商业评论。研究者从各领域随机筛选了长度在100至300词之间的文本,并排除了包含超链接或过多换行的内容,以确保文本能够体现局部与全局连贯性特征。标注过程中,邀请了13位具有语言学标注经验的专家评审员和62位通过资格测试的众包标注员,依据统一指导原则对每篇文本进行三分制连贯性评分(低、中、高),最终通过阈值化平均分数形成共识标签,构建了包含4800篇文本的平衡语料库。
特点
GCDC语料库的显著特点在于其真实性与多样性,涵盖了非专业写作者在日常语境中产生的文本,而非经过人工排列或机器生成的理想化数据。语料库包含四个异构领域,每个领域1200篇文本,均具备专家与众包标注员的双重评分,为研究不同标注者一致性提供了基础。数据分析显示,专家标注员在多数领域达到中等一致性,而众包标注员则倾向于将更多文本归为中等连贯类别,反映了连贯性标注任务的内在挑战性。此外,语料库文本在词汇类型、句子长度和段落结构上呈现丰富变异,为探索连贯性模型的跨领域泛化能力提供了实证基础。
使用方法
GCDC语料库支持多种连贯性建模任务的评估,包括三分制分类、连贯性分数预测、句子排序以及少数类分类。研究者基于该语料库对七种主流连贯性算法进行了大规模评测,包括实体网格、实体图、词汇连贯图以及多种神经网络模型。使用时可按照论文提供的训练-测试划分(每领域1000篇训练、200篇测试),以专家共识标签作为基准真值进行模型训练与验证。实验表明,神经网络模型(特别是新提出的SENTAVG和PARSEQ)在多数任务中表现最优,而传统实体模型在真实数据上的性能显著下降。语料库还可用于跨领域迁移学习研究,通过合并多领域数据训练提升模型泛化能力,为开发面向实际应用的连贯性评估系统提供了关键资源。
背景与挑战
背景概述
话语连贯性是衡量文本质量的核心维度,它关注句子间的逻辑衔接与篇章结构的整体组织,直接影响信息的有效传达与读者的理解体验。长期以来,该领域的研究依赖于新闻语料等结构规整的文本,并通过句子重排等人工构造任务进行评估,缺乏对现实场景中非专业写作的深入考察。为弥补这一空白,Grammarly与伊利诺伊大学厄巴纳-香槟分校的研究团队于近年联合构建了Grammarly话语连贯性语料库(GCDC)。该语料库系统采集了来自在线论坛、电子邮件及商业评论等四个日常领域的真实文本,并由专家标注员进行连贯性等级标注,旨在为话语连贯性模型在真实环境中的性能提供首个大规模基准测试平台,推动连贯性评估从理论模拟向实际应用跨越。
当前挑战
GCDC所应对的核心领域挑战在于如何精准评估与提升现实世界中非结构化文本的连贯性,这区别于以往基于规整文本的句子排序任务。具体构建挑战体现在多个层面:首先,语料标注面临显著困难,连贯性作为主观性较强的概念,即使经过培训的专家标注员之间也仅达到中等一致性,而众包标注员的共识度更低,凸显了人工评判的高复杂度。其次,语料设计需平衡文本长度与代表性,过滤URL及过度换行等噪声,同时确保覆盖不同领域内连贯性高低变化的真实光谱,而非依赖人工构造的低连贯样本。此外,评估模型在真实数据上的性能迁移是一大挑战,传统基于实体的模型在GCDC的稀疏实体网格上表现不佳,而神经模型虽总体领先,但其在少数类识别等精细任务上的精度距实际应用仍有差距,且模型性能受领域差异影响显著。
常用场景
经典使用场景
在语篇连贯性研究领域,Grammarly语篇连贯性语料库(GCDC)为评估和比较不同连贯性建模方法提供了基准测试平台。该语料库汇集了来自论坛帖子、电子邮件和产品评论等日常写作领域的真实文本,并附有专家标注的连贯性等级。其经典使用场景在于系统性地评测各类实体网格、词汇图以及神经网络模型在真实世界文本上的性能表现,尤其聚焦于区分低连贯性与高连贯性文档的分类任务。通过跨领域的大规模实验,GCDC揭示了传统方法在人工构造数据上的优异表现与在真实数据上的显著落差,从而推动了连贯性评估范式的转变。
实际应用
该数据集的实际应用价值主要体现在自动化写作辅助和自然语言生成系统的质量提升方面。基于GCDC训练的连贯性评分模型,能够集成到如Grammarly等写作工具中,为用户提供关于文本组织结构和逻辑流畅度的反馈,例如提示缺失的主题过渡或标识组织混乱的段落。在商业电子邮件、在线内容创作和教育评估等场景下,此类模型有助于提升书面沟通的清晰度和专业性。此外,它还能用于改进机器翻译、文本摘要等生成式系统的输出质量,确保生成文本不仅语法正确,而且具备良好的可读性与逻辑连贯性。
衍生相关工作
GCDC的发布催生了一系列围绕真实世界语篇连贯性建模的衍生研究。论文本身引入的SENTAVG和PARSEQ两种神经网络模型,因其简单有效而成为后续工作的常用基线或改进起点。该数据集促使研究社区重新审视句子重排任务的局限性,并转向更贴近实际需求的文档级连贯性评分与分类任务。后续工作可能在此基础上探索更细粒度的连贯性缺陷诊断、结合领域自适应的跨领域建模,或是将连贯性特征与其他文本质量指标(如语法、风格)相结合的多维度评估体系。GCDC提供的公开数据、标注指南和代码,为这些方向的探索提供了不可或缺的资源。
以上内容由遇见数据集搜集并总结生成



