five

XFORMAL

收藏
arXiv2021-04-09 更新2024-06-21 收录
下载链接:
https://github.com/Elbria/xformal-FoST
下载链接
链接失效反馈
官方服务:
资源简介:
XFORMAL是一个多语言正式风格转换基准数据集,包含巴西葡萄牙语、法语和意大利语中的非正式文本的多种正式改写。该数据集由马里兰大学的研究团队创建,旨在推动多语言风格转换的研究。数据集包含1000个句子,每个语言3000个句子,通过Amazon Mechanical Turk平台收集。XFORMAL不仅用于评估现有的风格转换方法,还旨在解决多语言环境下的风格转换挑战,特别是在非英语语言中的应用。

XFORMAL is a multilingual formal style transfer benchmark dataset containing multiple formal paraphrases of informal texts in Brazilian Portuguese, French and Italian. Developed by a research team from the University of Maryland, this dataset is intended to advance research in multilingual style transfer. It consists of 1000 sentences in total, with 3000 sentences per language, and was collected via the Amazon Mechanical Turk platform. XFORMAL is not only used to evaluate existing style transfer methods, but also aims to address the challenges of style transfer in multilingual settings, especially for applications in non-English languages.
提供机构:
马里兰大学
创建时间:
2021-04-09
搜集汇总
数据集介绍
main_image_url
构建方式
在形式风格转换研究领域,多语言资源的稀缺性长期制约着相关模型的泛化能力评估。XFORMAL数据集的构建过程体现了严谨的学术规范,其核心方法是从雅虎问答平台的L6语料库中,针对巴西葡萄牙语、法语和意大利语三个罗曼语族语言,系统性地筛选并重构非正式文本。具体而言,研究团队首先从“家庭与关系”主题下提取目标语言的原始答案,经过多层过滤去除包含超链接、重复或长度异常的句子,随后利用自动化工具识别非正式表达候选句。最终,通过亚马逊众包平台,由通过严格质量控制(包括地理位置限制、资格测试与人工复核)的母语标注者,为每句非正式文本生成四个保持原意的正式改写版本,从而构建起一个包含三千对句对的高质量平行语料库。
特点
XFORMAL数据集在风格转换资源中展现出鲜明的跨语言特性与结构复杂性。其首要特征在于覆盖了三种非英语的罗曼语族语言,为探索语言普遍性与特异性在形式转换中的表现提供了实证基础。数据内部呈现丰富的编辑类型分布,不仅包含标点修正、大小写规范化等表层编辑,更涵盖了高达50%以上的释义性改写,体现了“深度形式性”转换的实质。定量分析显示,意大利语改写与原文的词汇差异最大,而整个数据集的改写多样性显著高于英语基准GYAFC,这通过较低的自我BLEU值得以印证。此外,数据集提供了多参考译文,并附有详尽的元数据标注,包括编辑类型分类与形式性分数,为模型性能的细粒度评估奠定了坚实基础。
使用方法
XFORMAL数据集主要服务于多语言形式风格转换任务的评估与模型开发。研究者可将其作为标准测试集,用于衡量模型在保持语义内容的前提下,将非正式文本转换为正式文本的能力。评估通常围绕四个维度展开:通过计算与多个参考译文的BLEU分数或与原文的语义相似度来评估内容保持度;利用预训练的多语言形式性回归模型(如基于mBERT的模型)或人工评判来度量形式性转换程度;使用语言模型困惑度或人工评分检验输出文本的流畅性;综合以上指标进行整体性能排名。数据集支持对监督方法(如基于合成平行数据训练的NMT模型)与无监督方法的基准测试,其多参考特性有助于更可靠地评估生成文本的质量。此外,数据集的编辑类型分析可用于诊断模型弱点,推动更具解释性的风格转换研究。
背景与挑战
背景概述
在自然语言处理领域,风格迁移任务旨在自动转换文本的文体属性,而形式性风格迁移作为其重要分支,聚焦于将非正式文本转化为正式表达。长期以来,该领域的研究高度集中于英语,其他语言资源稀缺,制约了多语言风格迁移的发展。为此,马里兰大学与Dataminr的研究团队于2021年共同创建了XFORMAL数据集,这是首个专注于巴西葡萄牙语、法语和意大利语的多语言形式性风格迁移基准。该数据集基于Yahoo! Answers语料库,通过众包方式为每种语言的1000个非正式句子收集了多个正式改写版本,旨在推动跨语言风格迁移模型的评估与创新,填补了非英语形式性转换研究的空白。
当前挑战
XFORMAL数据集所应对的核心挑战在于多语言形式性风格迁移任务的高复杂性。首先,形式性转换不仅涉及表面文本规范化(如拼写修正、标点调整),更需深入处理语义层面的改写,例如语境补充与句式重构,这对模型的内容保留与风格转换平衡能力提出了严峻考验。其次,数据构建过程面临多重困难:一是高质量多语言平行语料稀缺,需通过机器翻译与人工校验相结合的方式生成训练数据;二是众包标注中需严格质量控制,以排除仅进行最小编辑或语义偏离的改写,确保数据多样性与准确性;三是评估体系缺乏标准化,现有自动指标在多语言场景下的可靠性有待验证,需依赖人工评估进行补充。
常用场景
经典使用场景
在自然语言处理领域,XFORMAL数据集为多语言形式风格转换研究提供了关键基准。该数据集聚焦于巴西葡萄牙语、法语和意大利语三种罗曼语系语言,通过构建非正式文本与其正式改写之间的平行语料,为探索跨语言风格迁移的共性规律与差异特性奠定了数据基础。其经典应用场景在于评估和比较不同风格转换模型在多语言环境下的性能表现,尤其关注模型在保持语义一致性的同时,能否有效提升文本的形式化程度,从而推动多语言风格转换技术的标准化评测进程。
解决学术问题
XFORMAL数据集主要解决了风格转换研究中长期存在的语言单一性问题,将形式风格转换任务从英语主导的范式拓展至多语言场景。该数据集通过提供高质量的人工标注平行语料,使得研究者能够系统探究非英语语言中形式转换的独特挑战,如词汇选择、句法结构调整及文化语境适应等。其意义在于打破了风格转换研究中的语言壁垒,促进了跨语言泛化能力的理论探索,并为构建更具包容性的自然语言生成模型提供了实证依据,从而推动了计算语言学研究向更广泛的语言多样性迈进。
衍生相关工作
XFORMAL数据集的发布催生了一系列围绕多语言风格转换的衍生研究。例如,基于该数据集的基准测试推动了跨语言迁移学习方法的创新,如利用翻译训练策略构建伪平行语料以缓解数据稀缺问题。同时,该数据集激发了针对非英语语言的形式性评估指标研究,包括多语言形式性分类器的设计与优化。此外,相关研究进一步探索了无监督与半监督方法在多语言风格转换中的适用性,并促进了风格转换与机器翻译任务的交叉融合,为构建统一的多语言文本生成框架提供了新的思路与实验平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作