five

liangyuch/ttcc-test-20

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/liangyuch/ttcc-test-20
下载链接
链接失效反馈
官方服务:
资源简介:
TikTok Creative Center — Top Ads (Smoke Set)数据集包含从TikTok Creative Center Top Ads表面抓取的100个广告的烟雾集(美国,周期=180天,排序=为你推荐),用于验证v2创意为中心的爬虫(`tiktok-ad-rl`仓库,标签`v2.0.0`)。每行数据对应一个广告ID,包含约42列数据,涵盖身份信息(如广告ID、视频ID、广告标题、品牌名称等)、资产(如视频本地路径、封面本地路径)、详细元数据(如广告标题、目标详情、关键词列表等)、创意全球参与度(如全球点击率百分位数排名、成本桶等)以及每秒曲线(如点击率曲线、转化率曲线等)。数据集来源为公开可浏览的ads.tiktok.com/business/creativecenter,通过Playwright路由拦截爬取,仅供研究使用,不得用于商业用途、再分发或生产模型训练。

The TikTok Creative Center — Top Ads (Smoke Set) dataset contains a 100-ad smoke set scraped from the TikTok Creative Center Top Ads surface (US, period=180, sort=for_you), used to validate the v2 creative-centric crawler (`tiktok-ad-rl` repo, tag `v2.0.0`). Each row corresponds to one `ad_id` with ~42 columns including identity information (e.g., `ad_id`, `vid`, `ad_title`, `brand_name`), assets (e.g., `video_local_path`, `cover_local_path`), detail metadata (e.g., `caption`, `objectives_detail`, `keyword_list`), creative-global engagement (e.g., `ctr_global`, `cost_bucket`), and per-second curves (e.g., `ctr_curve`, `cvr_curve`). The dataset is sourced from the publicly browsable ads.tiktok.com/business/creativecenter, scraped via Playwright route-interception, and is intended for research-use only, not for commercial use, redistribution, or model training intended for production.
提供机构:
liangyuch
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自TikTok Creative Center(创作者中心)的Top Ads(热门广告)页面,通过Playwright路由拦截技术对公开可浏览的广告列表进行抓取,并经由v2.0.0版本的`tiktok-ad-rl`爬虫工具验证后形成。数据集共包含100条广告记录(ad_id),每条记录对应广告的唯一标识、视频与封面文件、详细元数据(如广告标题、品牌名称、行业分类、目标类型)、全局互动指标(如点击率百分位数、成本桶等级、点赞数、评论数、分享数),以及以1赫兹采样率录制的每秒互动曲线(包括CTR、CVR、点击量、转化率和留存率曲线)。数据以单表结构存储,每个ad_id占据一行,共计约42个字段,便于进行广告效果分析。
特点
该数据集的核心特点在于其多维度广告效能指标与精细时间序列数据的结合。它提供了从身份信息、资产文件到互动曲线的完整层次,特别是每秒的CTR、CVR和留存率曲线,允许研究者深入分析广告播放过程中的受众反应变化。此外,`ctr_global`以百分位数排名而非标准点击率呈现,`cost_bucket`采用有序分类(0/1/2代表低成本/中成本/高成本),这些非传统指标为广告效果评估提供了独特视角。数据集还包含广告标题与画面文案的区分、多目标广告的详细目标列表等细节,但需注意部分广告可能因下架而导致详情字段为空,以及水印广告的存在。
使用方法
使用者可通过HuggingFace的`datasets`库直接加载数据:`from datasets import load_dataset; ds = load_dataset('liangyuch/ttcc-test-20', split='train')`。加载后,每条记录以字典形式访问,支持直接获取封面图像(`row['cover_local_path']`为PIL.Image对象)和视频文件(`row['video_local_path']`为decord Video对象),便于进行多模态分析。互动曲线以浮点数列表形式存储(如`row['ctr_curve']`),可直接用于时间序列建模或可视化。数据集仅供研究用途,不应用于商业场景或生产模型训练,且需注意`ctr_global`为百分位数排名、`cost_bucket`为有序变量等特殊字段含义。
背景与挑战
背景概述
短视频广告作为数字营销的重要载体,其创意表现与用户参与度之间的关联机制成为计算广告学与多媒体分析领域的研究焦点。TikTok Creative Center汇聚了海量广告创意案例,为研究者提供了探究高参与度广告特征的数据基础。该数据集由研究人员于2023年从TikTok Creative Center的Top Ads版面采集,包含100个经平台筛选的高表现广告样本,旨在验证新一代广告爬虫的采集效能与数据质量。作为小规模验证集,其核心研究问题聚焦于广告视频的多模态特征(包括视觉内容、文本描述、参与度曲线)与用户交互行为(如点击率、转化率、留存率)之间的量化关系。该数据集在计算广告学领域具有独特价值,其提供的秒级参与度曲线为细粒度广告效果建模提供了新的数据支撑,有望推动创意导向的广告推荐系统研究。
当前挑战
该数据集面临的核心领域挑战在于如何从多模态短视频广告中精准建模用户参与度的动态演化规律,尤其是点击率与转化率随时间变化的秒级曲线所蕴含的微观交互模式。构建过程中面临三重困难:首先,数据采集需突破TikTok平台的反爬机制,采用Playwright路由拦截技术模拟用户行为,存在法律与伦理风险;其次,广告元数据存在结构异质性,如多目标广告的objective_key与objectives_detail字段需手动对齐,部分历史广告因下架导致文本描述缺失;最后,指标定义的特殊性增加了建模复杂度,如ctr_global为百分位排名而非原始点击率,cost_bucket为序数变量且呈现高成本偏差,这些都需要研究者进行谨慎的数据转换与偏差校正。
常用场景
经典使用场景
在短视频广告效果研究中,ttcc-test-20作为从TikTok创意中心精选的100条顶级广告样本集,为研究者提供了可复现的验证基准。其核心价值在于结合了广告创意元素、受众互动指标与逐秒动态曲线,常见于视频创意特征与用户参与度之间复杂关联的探究。通过剖析ctr_curve、retention_curve等时间序列数据,并结合品牌、行业等元信息,研究者能够系统剖析高表现广告的共性设计规律。
实际应用
在工业界创意优化实践中,ttcc-test-20用于验证广告投放前的素材效能预测模型。营销团队可依据其蕴含的CTR百分位排名与成本层级,校准自动化创意筛选系统的评估阈值。同时,视频中嵌入的水印标识与落地页信息,为品牌安全监测与跨平台内容去重提供了真实世界的对照样本,助力广告主在相似品类中预判受众反应模式。
衍生相关工作
该数据集催生了若干围绕广告视频微观行为建模的探索性工作。其中,基于retention_curve的注意力衰减模型被扩展用于解释品牌垂直视频的黄金开场时长;融合ctr_curve与voice_over音频特征的序列预测框架,揭示了口播节奏对转化动线的调节效应。另有研究以其cvr_curve为监督信号,训练了面向TikTok风格的创意自动标签系统,提升了多目标广告中风格迁移的语义一致性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作