StylePTB

arXiv2025-09-30 收录

下载链接：

https://github.com/lvyiwei1/styleptb/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了21种细粒度风格转换前后的配对句子，同时也提供了多种细粒度风格转换组合的配对数据。该数据集不仅包含了单一风格的转换，还包括了组合风格的转换，并且是利用来自宾夕法尼亚大学树库的句子风格变化构建而成的。数据集规模为7719个不同的句子，其任务是细粒度的文本风格转换。

This dataset comprises paired sentences before and after 21 types of fine-grained style transformations, as well as paired data for multiple fine-grained style transformation combinations. It covers not only single-style transformations but also combined-style transformations, and is built upon sentence style variations extracted from the Penn Treebank of the University of Pennsylvania. The dataset contains 7719 distinct sentences, with its core task being fine-grained textual style transformation.

搜集汇总

数据集介绍

构建方式

在文本风格迁移研究领域，构建细粒度可控的数据集是推动模型精细化发展的关键。StylePTB数据集的构建基于宾州树库（Penn Treebank）的句子资源，通过系统化的方法实现了21种细粒度风格转换的标注。其构建过程融合了自动化规则与人工标注的双重策略：对于词汇、句法和部分语义转换，研究团队利用自然语言工具包（NLTK）和WordNet等资源，基于句法解析树设计了规则化的转换脚本，自动生成对应的转换句子对；而对于信息添加、形容词强调及动词强调这三类复杂转换，则通过亚马逊众包平台（Amazon Mechanical Turk）进行人工重写，确保了转换的准确性与自然性。最终，数据集涵盖了59,767个句子对，覆盖了词汇、句法、语义和主题四个层面的原子风格转换，并进一步生成了35,887个句子对，以支持多种风格组合的复合转换研究。

特点

StylePTB数据集在文本风格迁移领域展现出鲜明的特色，其核心在于提供了细粒度且可组合的风格转换能力。与以往仅关注高层次语义转换（如情感极性转换）的基准不同，该数据集涵盖了21种原子级别的风格转换，包括词汇层面的同义词/反义词替换、句法层面的时态和语态变化、语义层面的信息增删以及主题层面的强调转换。这些转换不仅覆盖了语言表达的多个维度，而且通过精心设计的组合机制，能够模拟更复杂的高层次风格迁移，为研究可控文本生成提供了丰富的实验素材。数据集的句子来源于宾州树库，经过筛选确保句子长度适中，从而在保持语言多样性的同时，为模型训练提供了高质量且规模可观的数据支持。

使用方法

StylePTB数据集的使用旨在推动细粒度可控文本风格迁移模型的研发与评估。研究人员可利用该数据集训练和测试各类风格迁移模型，特别是那些专注于原子转换或复合转换的模型。在使用时，通常将数据集划分为训练集、验证集和测试集，并采用BLEU、METEOR、ROUGE-L和CIDEr等自动指标来评估生成文本的质量。对于涉及额外输入（如信息添加或强调词）的转换任务，需将附加信息与源句子结合作为模型输入。此外，该数据集支持对模型组合能力的探索，例如通过训练单一模型处理多种风格转换，或评估模型在未见过的风格组合上的零样本性能。通过这种方式，StylePTB为研究可控生成、风格组合及解耦表示学习提供了重要的实验平台。

背景与挑战

背景概述

在自然语言生成领域，文本风格迁移旨在可控地改变文本的特定风格属性，同时保持其核心语义不变。然而，现有基准数据集多聚焦于高层语义风格（如情感极性转换），缺乏对细粒度风格构造的建模能力。为填补这一空白，卡内基梅隆大学的研究团队于2021年推出了StylePTB数据集。该数据集以宾州树库为基础，通过系统标注构建了涵盖词汇、句法、语义及主题四大范畴的21种细粒度风格转换，并进一步组合成复合风格转换对。其核心研究问题在于探索文本风格的可组合性与细粒度可控性，为可控文本生成、风格解耦表示学习等前沿方向提供了关键实验平台，显著推动了细粒度文本风格迁移研究范式的演进。

当前挑战

StylePTB所应对的核心领域挑战在于实现细粒度、可组合的文本风格迁移。现有模型虽能处理高层风格转换，却在句法结构调整、语义信息增删、主题重音迁移等细粒度操作上表现欠佳，尤其在组合多种风格时性能急剧下降。数据构建过程中的挑战主要体现在两方面：一是自动化生成与人工标注的平衡，其中信息添加、动词/形容词重音等复杂转换需依赖高质量人工标注以确保一致性与合理性；二是组合性数据的构建，需通过规则推导与反向变换链式处理，确保多步转换的逻辑连贯性与数据规模。这些挑战共同指向了对模型组合推理能力与细粒度控制机制的更高要求。

常用场景

经典使用场景

在自然语言处理领域，文本风格迁移研究长期受限于粗粒度语义转换的评估框架。StylePTB数据集的引入，为细粒度可控文本风格迁移提供了系统性基准。该数据集最经典的使用场景在于评估模型对21种原子级风格转换的建模能力，涵盖词汇替换、句法重构、语义增减及主题强调等维度。研究者通过该数据集能够精确量化模型在保持原句核心语义的前提下，实现时态转换、语态调整、信息增删等微观语言操作的表现，为可控文本生成技术的迭代提供了精细化评估标尺。

解决学术问题

StylePTB有效解决了文本风格迁移领域长期存在的三大核心问题：其一，突破了传统数据集中粗粒度风格转换的局限性，首次实现了对句法结构、语义焦点等微观语言特征的解耦控制；其二，通过构建可组合的原子风格单元，为复杂高层风格迁移提供了可解释的建模路径；其三，揭示了现有生成模型在细粒度语言操作上的能力边界，尤其暴露了Transformer架构在句法重构与主题强调任务上的显著缺陷。该数据集推动了风格迁移研究从宏观语义转向微观语言结构的范式转变。

衍生相关工作

基于StylePTB的评估范式，学界涌现出多项创新研究。CMU团队提出的CS-GPT模型首次实现了多风格组合的端到端学习，通过解耦表示学习将原子风格单元编码为可组合的转移令牌。后续研究进一步拓展了组合泛化能力，如哈佛大学开发的StyleFusion框架通过层次化注意力机制实现了跨风格域的迁移组合。此外，该数据集催生了风格解耦表示学习的新方向，斯坦福团队基于此构建的DisenStyle网络能够分离内容与风格表征，为零样本风格迁移提供了理论支撑。这些工作共同推动了可控文本生成向可解释、可组合的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集