five

AdTEC

收藏
Hugging Face2025-06-13 更新2025-06-14 收录
下载链接:
https://huggingface.co/datasets/cyberagent/AdTEC
下载链接
链接失效反馈
官方服务:
资源简介:
AdTEC数据集旨在从多个方面评估广告文本的质量,包括广告可接受性、广告一致性、广告性能评估、A3识别和广告相似度。数据集包含日本语的在线广告文本,并以TSV格式组织,包含训练、验证和测试数据集。
创建时间:
2025-06-13
搜集汇总
数据集介绍
main_image_url
构建方式
在搜索引擎广告文本质量评估领域,AdTEC数据集通过系统化流程构建而成。该数据集基于实际广告运营场景,从日本主流搜索引擎平台采集原始广告文本及关联落地页内容,采用专业标注团队进行多维度人工标注。构建过程涵盖五个核心任务模块,包括广告可接受性判断、广告一致性验证、广告效果预估、广告诉求识别以及广告相似度计算,每个任务均经过严格的数据清洗与质量控制流程,确保标注的一致性与准确性。
特点
AdTEC数据集展现出多任务协同评估的显著特征,全面覆盖广告文本质量的核心维度。数据集包含超过10万条日语广告文本实例,涵盖电子商务、金融等多个垂直行业领域。其独特之处在于同时整合了分类任务与回归任务,既包含二分类标签(如可接受性判断),也包含连续数值评分(如效果预估得分)。数据集采用标准化TSV格式存储,提供训练集、验证集和测试集的明确划分,支持端到端的模型训练与评估。
使用方法
研究人员可通过HuggingFace平台直接加载AdTEC数据集,使用指定配置名称访问不同任务模块。每个任务模块包含独立的训练、验证和测试分割,支持文本分类、文本对分类和回归等多种机器学习范式。数据集支持基于Transformer架构的预训练模型进行微调训练,特别适用于多任务学习场景。在使用过程中需注意遵守CC-BY-NC-SA 4.0许可协议,确保非商业用途下的合规使用。评估时可参考原论文提供的基准模型性能指标进行对比分析。
背景与挑战
背景概述
随着搜索引擎广告在数字营销领域的广泛应用,广告文本质量评估成为提升投放效果的关键环节。AdTEC数据集由CyberAgent AI实验室的Peinan Zhang等研究人员于2024年构建,专注于日本语境的搜索广告文本多维度质量评估。该数据集通过五个核心任务——广告可接受性判断、广告与落地页一致性检测、广告效果预测、广告诉求识别和广告文本相似度计算,为自然语言处理技术在广告优化领域的应用提供了标准化基准。其创新性在于首次系统性地整合了广告运营实践中涉及的多重质量维度,对计算广告学和语义理解研究具有重要推动作用。
当前挑战
在广告文本质量评估领域,传统方法面临多维度质量指标难以统一量化、日语语言特性带来的语义理解复杂性,以及广告效果与文本特征间非线性关联等核心挑战。数据集构建过程中需克服真实业务场景下的数据标注一致性难题,特别是在广告一致性任务中需要同时处理广告文本与落地页内容的跨文本对齐问题。此外,广告性能预测任务需整合行业类型、关键词等多模态特征,而日语敬语体系和商业术语的多样性进一步增加了语义标注的复杂度。这些挑战使得该数据集成为检验自然语言处理模型在复杂商业场景中实用性的重要试金石。
常用场景
经典使用场景
在搜索引擎广告文本质量评估领域,AdTEC数据集通过多任务框架为广告文本的合规性与有效性提供了标准化评估基准。该数据集典型应用于训练机器学习模型进行广告可接受性判断、广告与落地页一致性验证、广告效果预测、广告吸引力维度识别以及广告文本相似度计算等核心任务。研究者可利用其丰富的标注数据构建端到端的广告质量评估系统,推动广告文本生成与优化技术的精细化发展。
解决学术问题
AdTEC数据集有效解决了广告文本质量多维度量化评估的学术难题,为自然语言处理与计算广告学的交叉研究提供了重要基础设施。其通过结构化标注体系突破了传统单一指标评估的局限性,支持对广告文本的合规性、一致性、表现力及吸引力等多重属性的联合建模。该数据集显著促进了广告生成模型的可解释性研究,为构建可信赖的广告AI系统奠定了数据基础。
衍生相关工作
基于AdTEC数据集衍生的经典研究包括多任务联合训练的广告质量评估框架、跨模态广告一致性验证模型以及广告效果预测的时序增强方法。这些工作显著拓展了计算广告学的研究边界,例如结合Murakami等人提出的广告吸引力理论构建的细粒度分类模型,以及融合语义匹配与性能指标的广告优化系统。相关成果已被应用于新一代广告智能生成平台,推动了产业界广告创作流程的智能化变革。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作