tiktok-formatted-story-v2

Hugging Face2025-06-01 更新2025-06-02 收录

下载链接：

https://huggingface.co/datasets/subashdvorak/tiktok-formatted-story-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用户名、关注者数量、关注数量、账户隐私状态、账户验证状态、评论数量、点赞数量、视频时长、分享次数、播放次数、视频链接以及与视频内容相关的描述信息，如故事情节、角色、旁白或配音、转场与节奏、情感与语调、可见文本或品牌标识、领域、受众定位、号召性用语、产品或服务详情、文化相关性与季节性等。数据集分为训练集，共有2501个示例。

创建时间：

2025-06-01

原始信息汇总

数据集概述

基本信息

数据集名称: tiktok-formatted-story-v2
存储位置: Hugging Face数据集库
下载大小: 1,865,862字节
数据集大小: 4,014,821字节
示例数量: 2,501条
数据拆分: 仅包含train拆分

数据特征

username: 字符串类型，表示用户名
followersCount: 整数类型，表示粉丝数量
followingCount: 整数类型，表示关注数量
isPrivateAccount: 布尔类型，表示是否为私有账户
isVerifiedAccount: 布尔类型，表示是否为认证账户
commentCount: 整数类型，表示评论数量
likesCount: 整数类型，表示点赞数量
videoDuration: 整数类型，表示视频时长
shareCount: 整数类型，表示分享数量
playCount: 整数类型，表示播放数量
videoUrl: 字符串类型，表示视频链接
story: 字符串类型，表示故事内容
characters: 字符串类型，表示角色信息
narration_or_voiceover: 字符串类型，表示旁白或配音
transitions_and_pacing: 字符串类型，表示转场和节奏
mood_and_tone: 字符串类型，表示情绪和语调
visible_texts_or_brandings: 字符串类型，表示可见文本或品牌信息
domain: 字符串类型，表示领域信息
audience_targeting: 字符串类型，表示目标受众
call_to_action: 字符串类型，表示行动号召
product_or_service_details: 字符串类型，表示产品或服务详情
cultural_relevance_and_seasonality: 字符串类型，表示文化相关性和季节性

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在社交媒体内容分析领域，tiktok-formatted-story-v2数据集的构建体现了系统化的数据采集与标注流程。该数据集通过从TikTok平台提取公开视频内容，整合了用户基本信息、互动指标及视频元数据，并采用结构化标注框架对故事元素进行多维度解析，涵盖角色设定、叙事风格、情感基调等关键特征。构建过程中确保了数据来源的多样性和标注标准的一致性，为研究提供了可靠的基础。

特点

该数据集的显著特点在于其多维度的内容表征能力，不仅包含用户社交属性与视频互动数据，还深度解构了视频的故事性要素。特征字段覆盖了从技术参数如视频时长、播放量，到叙事层面的角色描述、节奏把控，乃至商业维度的受众定位与文化关联性。这种综合性的设计使得数据集能够支持跨领域分析，例如内容传播规律与用户行为关联研究。

使用方法

使用本数据集时，研究者可通过加载标准化的数据分割直接进行探索性分析或模型训练。数据集以训练集形式组织，包含2501条样本，每条样本的完整特征结构允许灵活选择分析维度。典型应用包括基于叙事元素的分类任务、互动指标预测模型构建，或结合多字段的联合分析，使用时需注意遵循平台数据使用规范并关注字段间的逻辑关联。

背景与挑战

背景概述

随着短视频平台的兴起，TikTok作为全球领先的社交媒体应用，催生了大量用户生成内容。tiktok-formatted-story-v2数据集由研究机构于2020年代初期构建，旨在分析短视频故事的结构与传播效果。该数据集聚焦于内容创作的多维特征，如叙事风格、情感基调及营销策略，为数字媒体研究提供了实证基础。其覆盖用户行为数据与内容属性，推动了社交计算和 computational communication 领域的进展，成为理解短视频影响力机制的重要资源。

当前挑战

该数据集致力于解决短视频内容分析与效果预测的复杂性挑战，包括多模态特征融合、用户互动模式识别以及跨文化传播效力的量化。在构建过程中，面临数据采集的隐私合规性问题，需平衡公开信息与伦理约束；同时，标注叙事元素如情绪色调或品牌植入时，存在主观性偏差，要求严格的 inter-annotator 一致性校验。此外，平台算法动态变化导致数据代表性维护困难，需持续更新以反映真实生态。

常用场景

经典使用场景

在短视频内容分析领域，tiktok-formatted-story-v2数据集为研究者提供了丰富的结构化叙事数据，常用于训练自然语言处理模型以自动解析视频故事要素。该数据集通过标注角色、旁白、节奏等维度，支持对短视频叙事结构的深入挖掘，成为多媒体内容理解研究的重要基准。

实际应用

面向实际应用场景，该数据集可赋能短视频平台的智能内容审核与推荐系统。通过分析故事要素与互动指标的关联性，助力平台优化内容分发策略，同时为品牌方提供数据驱动的营销效果评估框架，实现精准的受众触达与传播效果优化。

衍生相关工作

基于该数据集衍生的经典工作包括跨模态叙事生成模型和传播影响力预测算法。研究者通过融合视觉与文本特征构建了端到端的视频故事生成系统，同时利用用户互动数据开发了内容流行度预测模型，这些成果显著推进了社交多媒体智能处理的技术前沿。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集