ADPARAPHRASE V2.0

Name: ADPARAPHRASE V2.0
Creator: CyberAgent, Inc., Nara Institute of Science and Technology, Institute of Science Tokyo
Published: 2025-05-27 15:34:44
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://github.com/ CyberAgentAILab/AdParaphrase-v2.0.1

下载链接

链接失效反馈

官方服务：

资源简介：

ADPARAPHRASE V2.0 是一个用于广告文本改写的数据集，包含人类偏好数据，旨在支持生成吸引人的广告文本的方法的开发。与 V1.0 相比，这个数据集要大 20 倍，包含 16,460 个广告文本改写对，每个都标注了来自十个评估者的偏好数据，从而能够进行更全面和可靠的分析。该数据集使用可扩展的方法构建，包括大型语言模型和众包，并经过人工标注以识别改写和偏好判断。该数据集已公开，可供研究使用。

ADPARAPHRASE V2.0 is a dedicated dataset for advertising text paraphrasing, incorporating human preference data and designed to support the development of methodologies for generating compelling advertising copy. Compared to its V1.0 iteration, this dataset is 20 times larger in scale, encompassing 16,460 advertising text paraphrase pairs. Each pair is annotated with preference judgments collected from ten evaluators, enabling more comprehensive and robust analysis. The dataset is constructed via scalable approaches, including large language models (LLMs) and crowdsourcing, and undergoes manual annotation to identify paraphrases and preference judgments. This dataset is publicly available for research use.

提供机构：

CyberAgent, Inc., Nara Institute of Science and Technology, Institute of Science Tokyo

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

ADPARAPHRASE V2.0数据集的构建采用了多阶段流程，结合了大型语言模型（LLMs）和众包标注的方法。首先，基于公开的日本广告文本数据集CAMERA，利用四种不同的LLMs生成候选改写文本，并通过众包平台收集人工改写的文本。随后，通过规则过滤和人工标注进行改写识别（Paraphrase Identification, PI），确保文本对在语义上保持一致。最后，通过十名评估者进行偏好标注（Preference Judgment），形成包含16,460对改写文本的数据集。整个过程严格遵循质量控制措施，包括随机化选项顺序和注意力检查，以确保数据的高可靠性。

特点

ADPARAPHRASE V2.0数据集的核心特点在于其规模化和多样性。相比前代版本，其数据量扩大了20倍，覆盖了广泛的改写现象，不仅包括简单的词序变化，还通过明确的风格指令引导生成了多样化的表达。此外，每个文本对均标注了十名评估者的偏好数据，为分析广告文本吸引力提供了丰富的语言学特征标签。数据集的公开性和许可兼容性（CC BY-NC-SA 4.0）进一步支持了学术研究的可重复性和扩展性。

使用方法

该数据集适用于广告文本生成（ATG）和语言学分析研究。用户可通过其标注的偏好数据，训练或评估生成模型（如指令微调、偏好优化等），以提升广告文本的吸引力。分析时，可聚焦于已识别的关键语言学特征（如文本长度、名词数量、括号使用等）与人类偏好的关联。此外，数据集支持参考自由（reference-free）的自动评估指标验证，例如基于LLM的吸引力评分。具体使用时，建议划分训练集、开发集和测试集（比例9:0.5:0.5），并注意广告平台的字数限制（如30字符）。

背景与挑战

背景概述

ADPARAPHRASE V2.0是由CyberAgent, Inc.、Nara Institute of Science and Technology以及Tokyo Institute of Technology的研究团队于2025年推出的广告文本复述数据集。该数据集旨在通过分析语言因素来生成更具吸引力的广告文本，从而提升广告效果。相较于前代版本V1.0，V2.0规模扩大了20倍，包含16,460对广告文本复述，每对文本均由十位评估者标注偏好数据，为广告文本生成（ATG）研究提供了更全面和可靠的分析基础。该数据集在广告优化和自然语言处理领域具有重要影响力，尤其关注广告文本的表达方式（how-to-say）对吸引力的影响。

当前挑战

ADPARAPHRASE V2.0面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集旨在解决广告文本复述生成中的吸引力优化问题，但广告文本的吸引力受多种语言因素影响，如文本长度、词汇选择和句法复杂度，这些因素的复杂交互使得吸引力预测具有较高难度。在构建过程中，挑战包括：1）确保复述文本的语义一致性，同时提升表达吸引力；2）通过众包和大型语言模型（LLMs）生成高质量复述文本时需平衡效率与质量；3）偏好标注的主观性导致评估者间一致性较低（Fleiss’ kappa=0.167），需通过多样化评估标准和注意力检查提高数据可靠性。此外，数据集的规模扩展和公开许可（CC BY-NC-SA 4.0）也带来了资源分配和版权合规性挑战。

常用场景

经典使用场景

ADPARAPHRASE V2.0数据集在广告文本生成和优化研究中具有广泛的应用。该数据集通过提供大量带有偏好标注的广告文本对，帮助研究者分析不同语言表达方式对广告吸引力的影响。经典使用场景包括广告文本的自动生成、改写优化以及吸引力因素分析。研究者可以利用该数据集训练模型，生成更具吸引力的广告文本，或通过统计分析揭示影响用户偏好的关键语言特征。

衍生相关工作

该数据集已衍生出多个重要研究方向。基于V2.0的分析发现，研究者提出了结合语言特征指导的大模型提示工程方法，显著提升了生成质量。在模型架构方面，催生了面向广告优化的指令微调和直接偏好优化技术。数据集还促进了跨语言广告生成研究，推动建立了多语言吸引力评估框架。相关成果发表在ACL、EMNLP等顶级会议，形成了广告文本生成这一新兴研究领域的方法体系。

数据集最近研究