five

ADTEC

收藏
arXiv2024-08-12 更新2024-08-14 收录
下载链接:
https://github.com/CyberAgentAILab/AdTEC
下载链接
链接失效反馈
官方服务:
资源简介:
ADTEC是由CyberAgent和奈良科学技术研究所共同创建的,用于评估搜索引擎广告文本质量的统一基准数据集。该数据集包含五个任务,涵盖了广告文本的接受性、一致性、性能估计、A3识别和相似性评估。数据集来源于实际的广告操作流程,包括人工创作和自然语言生成模型的输出。创建过程中,数据经过了严格的预处理和标注,确保了数据的质量和实用性。ADTEC数据集主要用于解决广告文本质量评估的问题,特别是在大规模广告操作中的自动质量评估需求。
提供机构:
CyberAgent 和 奈良科学技术研究所
创建时间:
2024-08-12
搜集汇总
数据集介绍
main_image_url
构建方式
ADTEC数据集的构建基于实际广告操作经验,定义了五个任务以评估广告文本质量,包括广告可接受性、一致性、性能估计、A3识别和广告相似度。数据收集来自广告创建阶段和2021年至2022年间的日本赞助搜索广告。数据预处理包括数据清洗、标注和拆分。标注工作由具有丰富广告操作经验的日语母语者完成。数据拆分考虑了广告层次结构,以确保训练、开发和测试集之间的客户不重叠。
使用方法
ADTEC数据集的使用方法包括:1) 数据集可用于评估和比较各种NLP模型在广告文本质量评估任务上的性能;2) 数据集可用于开发新的广告文本质量评估方法和模型;3) 数据集可用于研究广告文本生成和评估的相关问题,如广告疲劳、广告吸引力等;4) 数据集可用于语言建模和幻觉检测等任务。
背景与挑战
背景概述
随着自然语言生成技术在广告文案自动生成方面的应用日益成熟,对广告文案质量进行实际场景验证的需求日益增长。ADTEC数据集应运而生,它是第一个从实际广告运营角度出发,对广告文案进行多方面质量评估的公开基准数据集。该数据集由CyberAgent公司和奈良科学技术研究所的研究人员共同创建,于2023年发布。ADTEC数据集的创建旨在解决广告文案质量评估的难题,包括五个评估任务:广告可接受性、广告一致性、广告性能估计、A3识别和广告相似性。该数据集的发布对广告和自然语言处理领域具有重要意义,为研究人员和开发者提供了一个全面的基准,用于评估和改进自然语言生成技术在广告文案创作中的应用。
当前挑战
ADTEC数据集的构建和评估面临着一些挑战。首先,构建广告文案质量评估基准的挑战在于缺乏明确的任务定义。由于广告运营领域知识的缺乏,理解和准确定义高质量广告文案的标准变得复杂。其次,构建过程中遇到的挑战包括数据收集的难度和数据的敏感性。由于法律和合同义务,广告工作流程和数据通常由内部管理,导致公开数据集的稀缺,这使得在学术界难以系统地复制和验证各种方法。此外,现有的预训练语言模型在广告文案评估任务中的表现虽然已经达到了实用水平,但在某些领域,人类评估者仍然优于模型,这表明在这些领域仍有很大的改进空间。
常用场景
经典使用场景
ADTEC数据集主要用于评估广告文本的质量,它涵盖了广告操作的多个方面。该数据集定义了五个任务,包括广告接受度、广告一致性、广告性能估计、A3识别和广告相似度。这些任务的设计基于实际的广告操作经验,旨在评估广告文本在多个维度上的质量,如语言流畅性、吸引力、与产品信息的一致性以及预测性能等。
解决学术问题
ADTEC数据集解决了广告文本质量评估的难题。在广告操作中,低质量的广告文本可能导致广告商的利益受损。由于人工评估成本高且难以扩展,因此需要开发自动质量评估器。ADTEC数据集为广告文本质量评估提供了一个公共的基准,有助于推动相关研究的发展。
实际应用
ADTEC数据集在实际应用中具有广泛的应用场景。例如,广告商可以使用该数据集来评估广告文本的质量,从而提高广告效果。此外,ADTEC数据集还可以用于开发自动质量评估器,从而提高广告操作的效率和准确性。
数据集最近研究
最新研究方向
随着自然语言生成技术在广告文本创作中的广泛应用,评估这些自动生成的广告文本质量的需求日益增长。ADTEC数据集作为首个公开的广告文本质量评估基准,为广告行业和自然语言处理(NLP)领域的研究提供了宝贵的资源。该数据集定义了五个任务,涵盖了广告文本的接受度、一致性、性能预估、A3识别和相似度评估,旨在全面评估广告文本的质量。研究结果表明,现有的预训练语言模型(PLMs)在多个任务上已达到实用水平,但在某些领域仍需人类评估者的辅助。这表明,广告文本评估领域仍有很大的改进空间,需要进一步研究以提高自动评估的准确性和效率。
相关研究论文
  • 1
    AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine AdvertisingCyberAgent 和 奈良科学技术研究所 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作