shofo-tiktok-general-small

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/Shofo/shofo-tiktok-general-small

下载链接

链接失效反馈

官方服务：

资源简介：

Shofo TikTok General (Small)是一个包含50,000个TikTok视频的数据集，涵盖了全面的元数据、转录文本、评论和互动指标。这是Shofo更大TikTok索引的一个精选子集，该索引包含数亿个索引视频。数据集采用MIT许可证，大小约为50K视频（约500GB），模态为视频+文本（转录、评论、字幕），来源为TikTok。数据集的结构包括文件名、视频ID、网页URL、创作者用户名、音频转录、视频描述、标签、贴纸文本、评论、互动指标、发布日期、语言信息、帧率、分辨率、视频时长、是否为AI生成、是否为广告等字段。互动指标包括播放次数、点赞数、评论数、分享数等。评论结构包括评论ID、文本、创建时间、点赞数、回复数、用户名、用户地区、语言等。语言结构包括描述语言、贴纸语言、地区、作者地区、原始音频语言等。数据集的收集方法包括发现、索引、转录和去重。使用示例展示了如何使用HuggingFace Datasets库和Pandas访问数据。注意事项包括压缩、互动指标、评论和空值处理。此外，还提供了更大版本的数据集信息。

创建时间：

2026-01-14

原始信息汇总

Shofo TikTok General (Small) 数据集概述

数据集基本信息

数据集名称：Shofo TikTok General (Small)
许可证：MIT
数据规模：包含约50,000个TikTok视频，数据量约500GB
模态：多模态（视频 + 文本）
语言：英语、西班牙语
来源：TikTok
任务类别：视频分类、文本生成
标签：tiktok, video, social-media, transcripts, multimodal
规模类别：10K<n<100K

数据内容与结构

数据集包含TikTok视频及其全面的元数据、转录文本、评论和互动指标。

数据模式

列名	类型	描述
`file_name`	字符串	视频文件的相对路径（例如：`videos/123.mp4`）
`video_id`	字符串	唯一的TikTok视频标识符
`web_url`	字符串	视频的TikTok网页URL
`creator`	字符串	创作者用户名
`transcript`	字符串	音频转录文本（由自动语音识别生成，可能为空）
`description`	字符串	视频标题/描述
`hashtags`	JSON数组	使用的主题标签列表
`sticker_text`	JSON数组	视频中可见的文本叠加/贴纸
`comments`	JSON数组	热门评论及其元数据
`engagement_metrics`	JSON对象	观看次数、点赞数、分享数等互动指标
`date_posted`	时间戳	视频最初发布时间
`language`	JSON对象	语言检测信息
`fps`	整数	每秒帧数
`resolution`	字符串	视频分辨率（例如：`1080x1920`）
`duration_ms`	整数	视频时长（毫秒）
`is_ai_generated`	布尔值	视频是否被标记为AI生成
`is_ad`	布尔值	视频是否为广告

互动指标结构

json { "play_count": 8948070, "like_count": 789584, "comment_count": 1451, "share_count": 38604, "collect_count": 126905, "repost_count": 0, "download_count": 235172, "whatsapp_share_count": 15737 }

评论结构

comments数组中的每条评论包含： json { "cid": "7352452026457342726", "text": "Comment text here", "create_time": 1711876158, "like_count": 885, "reply_count": 9, "username": "commenter_username", "user_region": "MX", "language": "es" }

语言结构

json { "desc_language": "es", "sticker_language": "en", "region": "US", "author_region": "US", "original_audio_language": null }

数据收集方法

视频通过Shofo的TikTok索引流程收集：

发现：通过探索/利用策略从种子账户滚雪球式地发现创作者和主题标签。
索引：通过TikTok API获取视频元数据。
转录：使用自动语音识别（ASR）转录音频。
去重：使用基于Redis的ID跟踪对视频进行去重。该子集是从更大索引中精心挑选的样本，注重数据质量和多样性。

使用方式

使用HuggingFace Datasets库

python from datasets import load_dataset ds = load_dataset("Shofo/shofo-tiktok-general-small", split="train") sample = ds[0] print(sample["transcript"]) print(sample["description"]) print(sample["engagement_metrics"])

使用Pandas

python import pandas as pd df = pd.read_parquet("hf://datasets/Shofo/shofo-tiktok-general-small/metadata.parquet") popular = df[df[engagement_metrics].apply(lambda x: x[play_count] > 1000000)]

访问视频

视频存储在videos/目录中，通过file_name列链接： python from datasets import load_dataset ds = load_dataset("Shofo/shofo-tiktok-general-small", split="train") video_path = ds[0]["file_name"] # 例如："videos/7350916080610643231.mp4"

重要说明

压缩：TikTok自动对其视频使用H264压缩，实现约50倍的轻微有损压缩。
互动指标：数值为索引时的数据。
评论：索引时的前50条评论。
空值：某些字段可能为空（例如：无语音时transcript为空，无叠加文本时sticker_text为空）。

更大版本

此数据集为Shofo TikTok数据集的“小型”版本。提供更大版本：

Shofo TikTok General (Medium)：1000万+视频
Shofo TikTok General (Large)：1亿+视频

引用

bibtex @dataset{shofo_tiktok_general_small_2025, title={Shofo TikTok General (Small)}, author={Shofo}, year={2025}, url={https://huggingface.co/datasets/Shofo/shofo-tiktok-general-small} }

搜集汇总

数据集介绍

构建方式

在社交媒体多模态数据分析领域，ShoFo TikTok General (Small) 数据集的构建体现了系统化的采集与处理流程。该数据集通过ShoFo的TikTok索引管道，采用探索与利用相结合的策略，从种子账户出发，通过滚雪球方式发现创作者和话题标签。随后，利用TikTok API获取视频元数据，并借助自动语音识别技术生成音频转录文本。为确保数据质量，还通过基于Redis的ID跟踪机制进行去重处理，最终从海量索引中精选出约5万条视频，形成这个兼顾多样性与代表性的高质量子集。

特点

该数据集以其丰富的多模态结构和详尽的元数据标注而著称。每条记录不仅包含视频文件，还整合了音频转录文本、视频描述、话题标签、贴纸文字以及用户评论等多种文本信息。同时，数据集提供了全面的互动指标，如播放量、点赞数、分享数等，并标注了视频的语言属性、分辨率、时长乃至是否为AI生成或广告内容。这种多维度的数据融合，为研究社交媒体内容传播、用户行为分析以及多模态机器学习模型训练提供了坚实的数据基础。

使用方法

研究人员可通过HuggingFace Datasets库便捷加载该数据集，直接访问视频、文本及元数据字段。利用Pandas进行数据分析时，可依据互动指标进行筛选，例如提取高播放量的热门视频。视频文件通过`file_name`字段链接，便于进行后续的视觉或音频特征提取。该数据集适用于视频分类、文本生成、多模态学习等多种任务，为探索短视频平台的内容生态与传播机制提供了灵活且强大的工具。

背景与挑战

背景概述

随着社交媒体平台的迅猛发展，短视频内容已成为信息传播与用户交互的核心载体。TikTok作为全球领先的短视频平台，其海量视频数据蕴含丰富的多模态信息，为计算机视觉、自然语言处理及跨模态学习研究提供了宝贵资源。在此背景下，Shofo机构于2025年发布了Shofo TikTok General (Small)数据集，该数据集精心选取了约5万条TikTok视频，涵盖视频文件、转录文本、评论及互动指标等多维度元数据，旨在支持视频分类、文本生成等任务，推动社交媒体内容分析与人工智能应用的深度融合。

当前挑战

该数据集致力于应对社交媒体视频内容理解中的多模态融合挑战，具体涉及视频与文本信息的对齐、跨语言内容的语义解析，以及用户互动行为的建模。在构建过程中，研究者面临数据采集的规模与质量平衡问题，包括通过API获取元数据时的完整性保障、自动语音识别转录的准确性优化，以及基于Redis的去重机制确保样本多样性。此外，视频的压缩处理与动态更新的互动指标也为数据的一致性与时效性维护带来了技术难题。

常用场景

经典使用场景

在社交媒体分析与多模态机器学习领域，Shofo TikTok General (Small)数据集为研究者提供了丰富的视频与文本资源。该数据集常用于训练和评估视频分类、内容理解及文本生成模型，尤其适用于探索短视频平台上的用户行为模式与内容传播机制。通过整合视频、转录文本、评论及互动指标，它支持从多角度分析社交媒体内容的语义与情感特征，为算法开发奠定了数据基础。

衍生相关工作

基于该数据集，已衍生出多项经典研究工作，包括多模态情感分析模型、视频摘要生成算法以及社交媒体影响力预测框架。这些工作通常结合计算机视觉与自然语言处理技术，探索视频内容与用户反馈之间的关联。部分研究进一步利用其多语言特性，开发跨文化内容比较模型，为全球化社交媒体分析提供了方法论参考。

数据集最近研究