five

Grammarly’s Yahoo Answers Formality Corpus (GYAFC)

收藏
arXiv2018-04-17 更新2024-06-21 收录
下载链接:
https://github.com/raosudha89/GYAFC-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Grammarly’s Yahoo Answers Formality Corpus (GYAFC)是由马里兰大学帕克分校的研究人员创建的一个大规模数据集,专注于非正式到正式的文本风格转换。该数据集包含110,000对非正式和正式的句子对,这些句子来源于Yahoo Answers平台,并通过人工重写确保了正式性。数据集的创建过程包括筛选、预处理和人工重写,旨在为机器翻译和文本简化等领域的研究提供高质量的训练和评估资源。GYAFC数据集的应用领域包括自然语言处理、机器翻译和文本生成,旨在解决文本风格转换中的自动评估和模型训练问题。

Grammarly’s Yahoo Answers Formality Corpus (GYAFC) is a large-scale dataset created by researchers at the University of Maryland, College Park, focusing on informal-to-formal text style transfer. It contains 110,000 informal-formal sentence pairs sourced from the Yahoo Answers platform, with the formal versions manually rewritten to guarantee their formality. The dataset's creation process includes filtering, preprocessing and manual rewriting, aiming to provide high-quality training and evaluation resources for research in fields such as machine translation and text simplification. The GYAFC dataset is applied across natural language processing, machine translation and text generation, targeting the resolution of challenges related to automatic evaluation and model training in text style transfer tasks.
提供机构:
马里兰大学帕克分校
创建时间:
2018-03-18
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,风格迁移任务长期受限于训练与评估数据的匮乏。GYAFC数据集的构建依托雅虎问答论坛的海量文本资源,通过精心设计的筛选流程获取高质量平行语料。研究团队首先从雅虎问答L6语料库中提取了4000万句子,并依据句式长度、问题类型及URL存在性进行过滤。随后,利用预训练的形式性分类器从娱乐音乐、家庭关系两个领域识别非正式句子,确保数据在特定语境下的风格一致性。通过亚马逊众包平台,专家工作者对筛选出的非正式句子进行人工改写,生成对应的正式表达,并经过多轮质量审核与参考译文扩充,最终形成了包含11万句对的平行语料库,为形式性风格迁移研究奠定了坚实的数据基础。
特点
该数据集在风格迁移研究领域具有显著特色,其语料规模达到11万平行句对,是目前形式性风格迁移任务中最大的公开资源。数据来源于雅虎问答社区的真实对话场景,涵盖了娱乐音乐与家庭关系两大领域,确保了语言风格的自然性与多样性。每个非正式句子均配有人工撰写的正式改写版本,并包含多参考译文,为模型训练与评估提供了丰富对照。数据集中句子长度控制在5至25词之间,既避免了过短句子的信息不足,也规避了过长句子的结构复杂性。此外,数据集通过严格的专家审核机制保障了改写质量,并提供了详尽的领域划分与统计信息,为跨领域风格迁移研究创造了条件。
使用方法
该数据集为形式性风格迁移任务提供了完整的实验框架,研究者可将其直接应用于模型训练与性能评估。在训练阶段,可利用平行句对构建基于规则、统计机器翻译或神经机器翻译的迁移模型,探索不同架构对风格转换的有效性。评估时,数据集提供的多参考译文支持BLEU、TERp等自动指标计算,同时其附带的人类标注支持形式性、流畅度、意义保持三个维度的细粒度评估。研究者还可通过领域划分数据开展跨领域泛化实验,或利用其提供的分类器进行风格强度量化分析。数据集的公开访问特性使其能够作为基准测试平台,推动风格迁移领域的标准化比较与技术创新。
背景与挑战
背景概述
Grammarly's Yahoo Answers Formality Corpus (GYAFC) 由马里兰大学与Grammarly的研究团队于2018年共同构建,旨在推动形式风格转换领域的研究进展。该数据集聚焦于文本形式化转换任务,即自动将非正式文本转化为正式文本,以应对自然语言生成中风格表达的精准控制需求。作为当时规模最大的平行风格转换语料库,GYAFC包含11万句非正式与正式句子对,覆盖娱乐音乐及家庭关系两大领域,其创建填补了该领域训练与评估数据的空白,为后续基于机器翻译技术的风格转换模型提供了关键基准。
当前挑战
GYAFC数据集所应对的核心挑战在于文本形式风格转换这一复杂任务,其需在转换过程中平衡形式性、流畅性与语义保持的三重目标。具体而言,模型需克服非正式文本中大量口语化表达、缩略语及不规则句法结构带来的转换困难,同时避免过度改变原句含义。在构建过程中,挑战主要体现在数据质量把控上,包括从海量Yahoo Answers语料中筛选高非正式性句子、通过众包平台获取高质量人工改写,以及设计多参考评估集以应对风格转换中输出多样性的度量难题。
常用场景
经典使用场景
在自然语言处理领域,GYAFC数据集被广泛用于形式化风格转换任务的研究与评估。该数据集通过提供大量非正式与正式句子对,为机器学习模型学习语言风格转换提供了丰富的训练资源。研究者通常利用这些平行语料,训练基于短语的机器翻译或神经机器翻译模型,以实现从非正式文本到正式文本的自动转换。这一经典应用场景不仅推动了风格转换技术的发展,还为后续研究提供了可复现的基准。
解决学术问题
GYAFC数据集有效解决了风格转换领域长期存在的训练数据匮乏问题。此前,学术界仅依赖莎士比亚风格转换等有限数据集,制约了模型性能的突破。该数据集通过构建大规模平行语料,使研究者能够系统探索形式化转换中的语义保持、流畅度与风格适配等核心挑战。其提供的评估基准与多维度指标,为量化分析模型在形式性、流畅性与意义保留方面的表现奠定了科学基础,显著提升了该领域研究的严谨性与可比性。
衍生相关工作
GYAFC数据集的发布催生了多项风格转换领域的创新研究。例如,研究者基于其平行语料结构,开发了结合复制机制的神经序列模型,以更好地处理文本中需保留的原始内容。同时,该数据集启发了对无平行数据风格转换方法的探索,如通过解耦隐表示控制文本属性。此外,围绕形式性分类器设计、多维度评估指标构建等衍生工作,进一步深化了对语言风格量化与评估的理论理解,形成了从数据到模型再到评估的完整研究链条。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作