liangyuch/ttcc-smoke-100
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/liangyuch/ttcc-smoke-100
下载链接
链接失效反馈官方服务:
资源简介:
TikTok Creative Center — Top Ads (Smoke Set)是一个包含100个广告的烟雾集,用于验证v2创意中心爬虫。数据集包含38列,涵盖广告身份(如ad_id、vid、ad_title等)、资产(如video_local_path、cover_local_path)、参与度(如ctr_global、cost_bucket、like_cnt等)和每秒曲线(如ctr_curve、cvr_curve等)。数据集来源为TikTok Creative Center,仅供研究使用,不得用于商业用途或模型训练。
TikTok Creative Center — Top Ads (Smoke Set) is a 100-ad smoke set scraped from the TikTok Creative Center Top Ads surface, used to validate the v2 creative-centric crawler. The dataset includes 38 columns covering identity (e.g., ad_id, vid, ad_title), assets (e.g., video_local_path, cover_local_path), engagement (e.g., ctr_global, cost_bucket, like_cnt), and per-second curves (e.g., ctr_curve, cvr_curve). The dataset is sourced from TikTok Creative Center and is intended for research use only, not for commercial purposes or model training.
提供机构:
liangyuch
搜集汇总
数据集介绍

构建方式
该数据集源自TikTok Creative Center平台中公开的Top Ads页面,通过基于Playwright的路由拦截技术(tiktok-ad-rl爬虫v2.0.0版本)进行自动化采集,最终构建了一个包含100条广告视频的小规模验证样本集。每条数据以ad_id为唯一标识,涵盖38个字段,包括身份信息(如广告标题、品牌名、行业键)、资产信息(本地视频与封面路径)、全局互动指标(如CTR百分位排名、成本桶、点赞数)、每秒更新的互动曲线(涵盖CTR、CVR、点击、转化及留存曲线),以及详细的元数据(关键词列表、模式标签、落地页、投放国家等)。数据集专为验证以创意为中心的v2版爬虫性能而设计,仅限学术研究使用。
使用方法
使用该数据集时,可通过HuggingFace Datasets库一键加载:调用`load_dataset("liangyuch/ttcc-smoke-100", split="train")`获取训练集,返回的每条数据包含`cover_local_path`(PIL.Image对象)和`video_local_path`(decord Video对象)等字段。互动曲线如`ctr_curve`以列表形式存储(浮点数列表,对应每秒的播放时间)。数据集适用于视频分类、特征提取等任务,但需留意其局限性:部分视频可能为Spark Ads(嵌入创作者用户名),广告投放者知识产权归原始广告主所有。由于自动化采集受TikTok服务条款限制,该数据集仅供非商业性的学术爬虫验证用途,禁止用于商业分发或生产环境模型训练。
背景与挑战
背景概述
在数字广告领域,TikTok作为全球领先的短视频平台,其广告创意的效能评估一直是学术界与工业界的研究热点。ttcc-smoke-100数据集由研究人员于2023年基于TikTok Creative Center公开的Top Ads页面(美国地区,周期180天,按“为你推荐”排序)构建,旨在验证第二代以创意为中心的爬虫工具(tiktok-ad-rl v2.0.0)。该数据集包含100条广告样本,每条记录涵盖广告身份、创意资产、参与度指标(如点击率百分位排名、成本区间、互动计数)及每秒动态曲线(点击率、转化率、留存率等),为广告视频分类和特征提取任务提供了细粒度的基准资源。其影响力在于填补了TikTok广告创意结构化数据的公开空白,推动了短视频广告效能预测与创意优化研究。
当前挑战
该数据集面临的核心挑战在于领域问题与构建过程两方面。领域层面,广告参与度指标存在非标准语义——ctr_global为百分位排名(数值越低效果越好)而非传统点击率,cost_bucket为序数分类(0/1/2),需谨慎解释以避免分析偏差;每秒曲线基于播放时间而非日历时间,与传统广告归因模型差异明显。构建过程中,数据源自Playwright路由拦截自动采集,受TikTok服务条款限制(禁止自动化数据收集及商业用途),仅可用于学术爬虫验证;部分视频为Spark Ads(嵌入创作者用户名),存在水印与知识产权归属争议;此外,广告文案字段(caption)始终为空,依赖ad_title承载信息,原始数据质量参差与法律约束共存,增加了数据集在合法性与完整性之间的权衡难度。
常用场景
经典使用场景
在视频内容分析与广告效果评估的研究领域,ttcc-smoke-100数据集作为从TikTok创意中心爬取的高质量广告视频样本集,被广泛用于验证面向创意的视频爬虫系统性能,以及探索短视频广告的视觉特征与用户参与度之间的关联。研究者可基于该数据集提取视频与封面图像的多模态特征,结合广告文案、品牌行业等元信息,构建预测模型分析广告的点击率、转化率及留存曲线等关键指标。其细粒度的每秒时序曲线数据,为理解广告播放过程中的观众行为动态变化提供了独特视角,尤其适合用于时间序列分析与视频理解相关的研究实验。
解决学术问题
该数据集有效解决了广告创意研究中真实平台数据获取难、标注成本高的问题。传统研究依赖人工标注或仿真数据,难以捕捉真实平台的用户参与模式。ttcc-smoke-100提供了来自TikTok真实广告生态的参与度指标,包括全局CTR百分位数、成本分桶及每秒的点击、转化、留存时序曲线,使学术界能够量化分析广告创意要素(如视觉风格、文案策略、行业类别)与用户注意力、消费意愿之间的关系。它为验证多模态特征在广告效果预测中的增益作用,以及探索时序建模方法(如Transformer、TCN)在广告理解任务中的适用性,提供了标准化基准与高质量实验素材。
实际应用
在实际应用层面,该数据集可直接服务于广告推荐系统优化与创意策略洞察。广告平台可基于其包含的实时参与度曲线特征,开发面向创客的智能辅助工具,预测广告片的用户留存时点,优化视频内容节奏与信息密度分布。品牌方与广告代理机构可利用数据集中的行业分布与品牌表现对照,制定更具针对性的市场投放策略。此外,数据集提供的封面图像与视频本地路径,便于搭建多模态检索系统,实现高相似广告创意匹配与抄袭检测,从而提升广告合规审核效率。其研究仅限于非商业场景,但仍能为广告技术领域的方案验证提供重要的现实依据。
数据集最近研究
最新研究方向
该数据集聚焦于TikTok平台创意广告的精细化分析,为视频分类与特征提取领域提供了独特的验证基准。最新研究方向集中于利用秒级用户参与度曲线(如点击率、转化率、留存率)解码广告内容的时序动态模式,探索创意元素(如标题、品牌、着陆页)与用户行为指标间的关联机制。结合TikTok全球热点广告生态,研究者正通过该小规模样本验证自动化爬虫与多模态特征抽取管道的可靠性,为理解短视频广告的创意效能与用户响应规律奠定方法论基础,进而推动广告智能投放与创意优化研究的范式革新。
以上内容由遇见数据集搜集并总结生成



