ADPARAPHRASE

Name: ADPARAPHRASE
Creator: 名古屋工业大学
Published: 2025-02-11 13:36:24
License: 暂无描述

arXiv2025-02-11 更新2025-02-11 收录

下载链接：

https://github.com/CyberAgentAILab/AdParaphrase

下载链接

链接失效反馈

官方服务：

资源简介：

ADPARAPHRASE是一个包含人类偏好的广告文本改写数据集，由名古屋工业大学等机构构建。该数据集包含725对在语义上等效但在措辞和风格上不同的广告文本对，通过五名广告制作经验丰富的工作者进行人工标注，旨在分析影响人类偏好的语言特征。数据集覆盖了广告文本的多种语言特征，包括文本长度、词汇选择、句法结构和风格特点，可为研究广告文本吸引力提供重要资源。

ADPARAPHRASE is an advertising text paraphrase dataset annotated with human preferences, constructed by institutions including Nagoya Institute of Technology and other relevant organizations. This dataset comprises 725 pairs of semantically equivalent advertising texts that differ in wording and style. Manually annotated by five professionals with extensive experience in advertising production, it is developed to analyze the linguistic features that influence human preferences. The dataset covers a wide range of linguistic features of advertising texts, including text length, lexical choice, syntactic structure and stylistic characteristics, serving as a critical resource for research on the attractiveness of advertising texts.

提供机构：

名古屋工业大学

创建时间：

2025-02-07

搜集汇总

数据集介绍

构建方式

ADPARAPHRASE数据集的构建方式主要分为两个步骤：收集释义候选文本和人工标注释义识别。首先，研究人员从两个公开的日语广告文本数据集中收集了释义候选文本，包括Ad Similarity和CAMERA。Ad Similarity数据集包含了6,332对广告文本，由三名人类评估者根据五点评分标准进行评分。CAMERA数据集则是一个广告文本生成任务的基准数据集，其中广告文本是根据用户查询和源文档生成的。研究人员从这两个数据集中提取了释义候选文本，并通过人工标注的方式确定了每对广告文本是否为释义。最后，研究人员收集了人类对每对广告文本的偏好判断，以便分析影响人类偏好的语言特征。

特点

ADPARAPHRASE数据集的特点在于它包含了人类对语义等价但用词和风格不同的广告文本对的偏好判断。这使得研究人员能够专注于分析单个广告文本之间的语言特征差异，同时最小化语义内容差异的影响。通过统计分析人类偏好，研究人员发现，流畅、长度较长、包含更多名词和使用括号符号的广告文本往往更受人类评估者的青睐。此外，数据集还包含了各种语言特征，包括原始文本特征、词汇特征、句法特征和风格特征，这些特征有助于深入分析影响人类偏好的因素。

使用方法

ADPARAPHRASE数据集的使用方法主要包括以下两个方面：分析和生成。首先，研究人员可以通过分析数据集中的人类偏好判断来识别影响广告文本吸引力的语言特征。例如，通过卡方检验，研究人员发现流畅性、字符长度、名词频率和括号使用频率与人类偏好之间存在显著相关性。其次，研究人员可以利用这些发现来生成更具吸引力的广告文本。例如，通过将研究发现和偏好判断作为少样本示例，研究人员探索了各种生成更具吸引力广告文本的方法，并取得了显著的成果。

背景与挑战

背景概述

广告文案的有效性在数字营销中扮演着至关重要的角色。Murakami等人（2025）的研究旨在探索影响人类偏好的广告文案的语言特征。该研究面临的主要障碍包括人类偏好的复杂性，以及缺乏包含人类偏好的广告文案数据集。为了解决这些问题，研究者们提出了ADPARAPHRASE数据集，该数据集包含人类对语义等价但措辞和风格不同的广告文案对的首选。该数据集的创建时间并未在论文中明确提及，但研究显示它包含1,238个候选对，其中725个是语义等价的广告文案对。该数据集由Murakami等人创建，并发表在arXiv上。ADPARAPHRASE数据集对理解影响人类偏好的语言特征具有重要影响，并为广告文案生成模型提供了实证基础。

当前挑战

ADPARAPHRASE数据集面临的主要挑战包括人类偏好的复杂性和缺乏包含人类偏好的广告文案数据集。人类偏好受到多种因素的影响，包括文案的内容和语言风格，这使得分析变得具有挑战性。此外，公开可用的广告文案数据集很少包含人类偏好的数据，例如广告绩效指标和人类反馈。这些数据集往往是公司专有的，限制了研究人员的研究。为了克服这些障碍，研究者们创建了ADPARAPHRASE数据集，该数据集通过收集语义相似的广告文案、进行释义识别和收集人类偏好判断来构建。尽管该数据集为理解影响人类偏好的语言特征提供了重要的资源，但数据集的规模有限，以及未考虑到的语言特征和注释者人口统计信息等因素，仍然是未来研究的潜在挑战。

常用场景

经典使用场景

ADPARAPHRASE数据集被广泛用于分析广告文本中影响人类偏好的语言特征。通过包含语义上等效但用词和风格不同的广告文本对，该数据集允许研究者专注于分析语言特征的差异，从而更好地理解哪些因素会影响广告的吸引力。例如，研究者可以使用该数据集来训练广告文本生成模型，以生成更具吸引力的广告文本。

实际应用

ADPARAPHRASE数据集在实际应用中非常有用。例如，它可以被用于开发广告写作助手工具，该工具可以根据数据集中发现的规律来优化广告文本的用词和风格，从而提高广告的吸引力。此外，该数据集还可以用于在线广告投放的A/B测试，以评估不同版本的广告文本对广告性能的影响。

衍生相关工作

ADPARAPHRASE数据集的发布促进了相关领域的研究。例如，一些研究利用该数据集来分析广告文本中影响人类偏好的语言特征，并探索如何利用这些特征来生成更具吸引力的广告文本。此外，还有一些研究利用该数据集来开发广告写作助手工具，以提高广告文本的吸引力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集