liangyuch/ttcc-v0_1_0
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/liangyuch/ttcc-v0_1_0
下载链接
链接失效反馈官方服务:
资源简介:
TikTok Creative Center — Top Ads (Smoke Set)是一个包含100个广告样本的数据集,这些样本是从TikTok Creative Center Top Ads表面(美国,周期=180,排序=for_you)抓取的。数据集用于验证v2创意中心爬虫(`tiktok-ad-rl`仓库,标签`v2.0.0`)。每行数据代表一个`ad_id`,包含约42列,涵盖身份信息(如`ad_id`、`vid`、`ad_title`等)、资产(如`video_local_path`、`cover_local_path`)、详细元数据(如`caption`、`objectives_detail`等)、参与度数据(如`ctr_global`、`cost_bucket`等)以及每秒曲线数据(如`ctr_curve`、`cvr_curve`等)。数据集来源为ads.tiktok.com/business/creativecenter,仅供研究使用,不得用于商业用途、再分发或生产模型训练。
TikTok Creative Center — Top Ads (Smoke Set) is a dataset containing a 100-ad smoke set scraped from the TikTok Creative Center Top Ads surface (US, period=180, sort=for_you). It is used to validate the v2 creative-centric crawler (`tiktok-ad-rl` repo, tag `v2.0.0`). Each row represents an `ad_id` with ~42 columns including identity information (e.g., `ad_id`, `vid`, `ad_title`), assets (e.g., `video_local_path`, `cover_local_path`), detail metadata (e.g., `caption`, `objectives_detail`), engagement data (e.g., `ctr_global`, `cost_bucket`), and per-second curves (e.g., `ctr_curve`, `cvr_curve`). The dataset is sourced from ads.tiktok.com/business/creativecenter and is intended for research-use only, not for commercial use, redistribution, or model training intended for production.
提供机构:
liangyuch
搜集汇总
数据集介绍

构建方式
该数据集源自TikTok创意中心公开的顶级广告页面,通过Playwright路由拦截技术进行自动化采集,以验证v2版创意优先型爬虫的性能。数据集包含100条广告样本,每条记录以ad_id为唯一标识,涵盖身份信息、资产文件、详细元数据及用户参与度指标等约42个字段。其中,资产列包括本地存储的视频与封面图片,元数据则包含完整的屏幕广告文案、多目标标签、关键词列表及落地页信息。此外,数据集还提供了每秒采样的表现曲线,如点击率、转化率和留存率,为广告效果分析提供了精细化的时间序列数据。
特点
该数据集的核心特色在于其多维度的广告评估能力。它既包含了常规的全局参与度指标(如点击率百分位排名、成本桶分级、点赞与评论数),又创新性地引入了多个每秒绘制的表现曲线,能够揭示广告随时间推移的动态效果。尤为独特的是,数据集提供了视频前段的用户体验曲线,如留存率曲线,这在同类数据集中极为罕见。尽管样本规模较小,但其精细的字段设计使其成为验证爬虫算法和探索广告效果微观机制的理想测试集。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,使用一行代码即可获取训练集并进行迭代访问。加载后,每个样本支持直接访问视频与封面图片的PIL或decord对象,便于进行可视化与特征提取。同时,数据集中的曲线数据为列表格式的浮点数,可直接用于时间序列分析或模型输入。建议用户优先阅读数据集中附带的SCHEMA.md文件以了解字段细节与注意事项,例如ctr_global为百分位排名而非原始点击率,曲线值基于播放秒而非日历时间等关键约束。
背景与挑战
背景概述
短视频平台的迅猛发展催生了广告创意优化的迫切需求,然而学术界长期缺乏细粒度、多模态的公开广告数据集。ttcc-v0_1_0数据集由研究机构于2024年构建,旨在填补这一空白,其核心研究问题聚焦于通过视频内容、用户互动曲线及广告元数据,揭示高表现力广告的创意规律。该数据集从TikTok Creative Center的Top Ads页面爬取100条广告样本,包含视频、封面、逐秒的点击率与留存率曲线等42维字段,为视频分类与特征提取提供了独特资源。其价值在于将平台级广告指标与微观时间序列结合,推动了广告创意效能的可量化分析,对计算广告学与多媒体理解领域产生了初步影响。
当前挑战
数据集所应对的领域挑战在于:广告创意分析长期依赖粗粒度指标(如CTR)或静态图像,缺乏对视频动态叙事节奏、用户参与度随时间演化规律的建模能力。ttcc-v0_1_0通过提供逐秒曲线,首次使研究者能捕捉广告片段层面的受众响应模式。构建过程中的挑战亦不容忽视:1)自动爬取受限于TikTok服务条款,需借助测试版API与Playwright路由拦截技术,合规性与数据规模受限;2)部分广告因下架导致元数据缺失,引入了不完整性;3)全局CTR为百分位排名而非原始点击率,成本桶为有序分类变量,需谨慎设计建模策略以避免误解指标语义。
常用场景
经典使用场景
ttcc-v0_1_0数据集聚焦于TikTok平台上的热门广告创意分析,经典使用场景包括对广告视频的多元特征提取与分类。研究者可利用该数据集中的视频、图像、元数据及每秒级别的用户参与度曲线(如CTR、CVR、留存率)进行视频分类任务,例如识别不同行业广告的模式标签(pattern_label)或广告目标(objective_key)。此外,通过整合CTR百分位排名与成本桶(cost_bucket)等指标,能够对广告的创意吸引力进行量化评估,为短视频广告的创意策略研究提供结构化基准。
衍生相关工作
数据集衍生的一系列经典工作包括:基于每秒CTR曲线与视频帧特征的创意质量预测模型,该模型可自动评估广告的潜在用户吸引力;结合cvr_curve与conversion_curve的多任务学习框架,用于预测广告转化漏斗各阶段的用户行为;以及利用retention_curve与ad_title语义嵌入的跨模态检索系统,实现历史高表现创意与新产品广告的智能匹配。这些工作推动了短视频广告分析从描述性统计向预测性建模的转变,并为后续的大规模广告创意基准测试提供了验证基础。
数据集最近研究
最新研究方向
在短视频广告领域,该数据集聚焦于TikTok平台上高曝光广告的创意特性与用户参与行为之间的深层关联。通过提取多维度元数据——包括广告主行业、投放目标、按秒级精度的点击率与留存率曲线,研究者能够量化分析不同广告创意要素(如口播、标题、落地页类型)对用户注意力动态的影响。这一精细化的时序数据为构建广告效果预测模型、优化创意自动化生成算法提供了实证基础。作为轻量级验证集,它推动了面向短视频创意的可复现爬虫工具链的开发,并引发了对平台数据采集边界与伦理协商的学术讨论。
以上内容由遇见数据集搜集并总结生成



