creative-graphic-design/CAMERA

Name: creative-graphic-design/CAMERA
Creator: creative-graphic-design
Published: 2023-03-17 14:49:35
License: 暂无描述

Hugging Face2023-03-17 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/creative-graphic-design/CAMERA

下载链接

链接失效反馈

官方服务：

资源简介：

CAMERA（CyberAgent Multimodal Evaluation for Ad Text GeneRAtion）是一个日语广告文本生成数据集，旨在用于研究和实现更高级的广告文本生成模型。该数据集包含多种字段，如资产ID、搜索关键词、元描述、原始广告文本等，并分为训练、验证和测试集。数据集是单语种的，主要语言为日语。

提供机构：

creative-graphic-design

原始信息汇总

数据集概述

数据集基本信息

名称: CAMERA
语言: 日语（ja-JP）
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (cc-by-nc-sa-4.0)
多语言性: 单语种
任务类别: 文本生成
数据来源: 原始数据

数据集结构

数据实例

配置:
- without-lp-images:
  - 字段: asset_id, kw, lp_meta_description, title_org, title_ne1, title_ne2, title_ne3, domain, parsed_full_text_annotation
  - 数据分割:
    - 训练: 12,395条
    - 验证: 3,098条
    - 测试: 872条
- with-lp-images:
  - 字段: asset_id, kw, lp_meta_description, title_org, title_ne1, title_ne2, title_ne3, domain, parsed_full_text_annotation, lp_image
  - 数据分割:
    - 训练: 12,395条
    - 验证: 3,098条
    - 测试: 872条

数据字段

without-lp-images:
- asset_id: 标识符
- kw: 搜索关键词
- lp_meta_description: 从落地页提取的元描述
- title_org: 原始广告文本
- title_ne{1-3}: 多参考评估的额外广告文本
- domain: 行业领域
- parsed_full_text_annotation: 落地页图像的OCR结果
with-lp-images:
- asset_id: 标识符
- kw: 搜索关键词
- lp_meta_description: 从落地页提取的元描述
- title_org: 原始广告文本
- title_ne{1-3}: 多参考评估的额外广告文本
- domain: 行业领域
- parsed_full_text_annotation: 落地页图像的OCR结果
- lp_image: 落地页图像

数据集创建

许可证信息

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

引用信息

bibtex @inproceedings{mita-et-al:nlp2023, author = "三田雅人 and 村上聡一朗 and 張培楠", title = "広告文生成タスクの規定とベンチマーク構築", booktitle = "言語処理学会第 29 回年次大会", year = 2023, }

搜集汇总

数据集介绍

构建方式

在数字广告领域，高质量广告文本的生成依赖于丰富且结构化的数据资源。CAMERA数据集通过精心设计的流程构建，其原始数据来源于真实的日本广告素材，涵盖了搜索关键词、落地页元描述及广告文本等多个维度。数据采集后，经过规范化处理，并采用众包方式进行标注，确保了数据的多样性与实用性。数据集进一步划分为训练集、验证集和测试集，其中测试集额外提供了多参考广告文本及行业领域标签，为模型评估提供了细致的基础。

特点

CAMERA数据集作为日本广告文本生成领域的专项资源，其核心特点体现在多模态与多参考评估框架上。数据集包含两个版本：不含落地页图像的版本聚焦于文本信息，而含落地页图像的版本则整合了视觉元素，支持跨模态研究。每个数据实例均包含搜索关键词、元描述、原始广告文本及多个参考文本，并附有行业领域标签，便于进行细粒度的领域适应性分析。此外，数据集通过OCR技术提取了落地页中的文本注释，增强了数据的可解释性与应用广度。

使用方法

在广告文本生成的研究与应用中，CAMERA数据集提供了便捷的加载与使用方式。用户可通过Hugging Face的datasets库，指定'without-lp-images'或'with-lp-images'配置来加载相应版本的数据集。数据集已预分为训练、验证和测试子集，可直接用于模型训练与评估。对于多参考评估，测试集提供了四个参考文本，支持BLEU等指标的精确计算。同时，行业领域标签允许研究者进行跨领域的性能分析，推动广告生成模型在特定场景下的优化与创新。

背景与挑战

背景概述

在数字营销与自然语言处理交叉领域，广告文本生成作为一项关键任务，旨在通过算法自动创作吸引用户点击的商业文案。CAMERA数据集由CyberAgent AI Lab的研究团队于2023年构建，其核心研究聚焦于日语广告文本的生成与评估。该数据集通过整合搜索关键词、落地页元描述及多参考广告标题，为模型训练与评测提供了结构化基准，推动了多模态广告生成技术在日语语境下的发展，对提升商业内容创作的智能化水平具有显著影响力。

当前挑战

广告文本生成任务面临多重挑战：其一，生成内容需在有限篇幅内平衡信息密度、创意表达与商业目标，对模型的语言控制能力提出高要求；其二，日语独特的语法结构与敬语体系增加了语义准确性与风格一致性的建模难度。在数据集构建过程中，挑战主要源于多源数据的对齐与标注，例如落地页图像与文本信息的精确匹配，以及通过众包确保多参考广告标题的多样性与质量，这些因素共同构成了数据可靠性与应用泛化性的潜在瓶颈。

常用场景

经典使用场景

在广告文本生成领域，CAMERA数据集为研究者提供了丰富的日文广告文本生成基准。该数据集通过整合搜索关键词、落地页元描述以及多参考广告标题，构建了一个从输入到输出的完整生成任务框架。其经典使用场景在于训练和评估基于自然语言处理的广告文案自动生成模型，特别是针对日语语境下的多模态或多参考生成任务，为模型在创意文本生成方面的性能提供了标准化测试平台。

实际应用

在实际应用层面，CAMERA数据集能够直接服务于数字营销和广告行业的自动化内容创作。基于该数据集训练的模型可辅助营销人员快速生成针对特定关键词和落地页的广告标题与描述，提升广告投放的效率和精准度。尤其在电子商务、旅游预订等日语主导的在线服务领域，此类技术有助于实现个性化广告文案的大规模生产，优化用户体验并提高转化率。

衍生相关工作

围绕CAMERA数据集，已衍生出若干重要的研究工作。例如，原创建团队利用该数据集进行了广告文本生成任务的基准构建与评估，为后续研究设立了性能对比标准。此外，该数据集也激发了多模态生成模型的探索，研究者尝试结合其提供的文本与图像信息，开发能够理解广告视觉语境并生成相应文案的先进模型，进一步拓展了生成式人工智能在创意设计领域的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集