social-assistent-synthetic-data

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/MatanKriel/social-assistent-synthetic-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含10,000条合成的TikTok视频元数据记录，旨在模拟视频内容（文本描述、标签）与病毒式传播表现（观看次数）之间的复杂关系。数据集设计用于病毒性预测（训练回归模型预测观看次数）、内容优化（分析哪些关键词和钩子驱动参与度）以及社交媒体分析（理解不同领域（健身、科技、食品等）的趋势）。数据包括视频描述、观看次数、类别、情感、持续时间、发布时间、创作者粉丝数、年龄、性别等特征。数据集通过复杂的逻辑管道生成，包括使用Qwen-2.5-3B-Instruct进行文本生成、病毒性评分、分层视图分配和噪声注入，以模拟现实世界的病毒性模式。

This dataset contains 10,000 synthetic TikTok video metadata records, designed to simulate the complex relationship between video content (text descriptions and hashtags) and viral propagation performance (view counts). It is intended for three core applications: viral prediction (training regression models to forecast view counts), content optimization (analyzing which keywords and hooks drive audience engagement), and social media analysis (understanding trends across diverse domains such as fitness, technology, food, and other categories). The dataset includes comprehensive features including video descriptions, view counts, content categories, sentiment labels, video duration, publish time, creator's follower count, creator age, and creator gender. It is generated via a sophisticated logical pipeline that encompasses text generation using Qwen-2.5-3B-Instruct, viral scoring, hierarchical view allocation, and noise injection to replicate real-world viral propagation patterns.

创建时间：

2026-01-16

原始信息汇总

数据集概述：Synthetic TikTok Virality Dataset

1. 数据集基本信息

名称：Synthetic TikTok Virality Dataset
托管地址：https://huggingface.co/datasets/MatanKriel/social-assistent-synthetic-data
许可证：mit
任务类别：表格回归
语言：英语
标签：社交媒体、TikTok、病毒式传播预测、合成数据
规模：10k<n<100k
配置：默认配置
数据文件：
- 分割：训练集
- 路径：data/train-*
下载大小：877009 字节
数据集大小：2300078 字节

2. 数据内容与结构

记录数量：10,000 条
数据格式：表格文件（synthetic_tiktok_data.csv）
特征列（14列）：
1. first_name：字符串，创作者名。
2. last_name：字符串，创作者姓。
3. age：整数，创作者年龄（经后处理转换为数值）。
4. gender：字符串，创作者性别。
5. followers：整数，创作者粉丝数。
6. category：字符串，内容类别。
7. sentiment：字符串，描述的情感基调。
8. duration：整数，视频时长（秒）。
9. hour_of_day：整数，发布小时（0-23）。
10. day_of_week：字符串，发布星期几。
11. description：字符串，视频完整描述（包括钩子、表情符号和标签）。
12. views：整数，模拟的观看次数（预测目标变量）。
13. viral_class：字符串，生成时使用的病毒性等级（内部/可选）。

3. 数据生成与处理

性质：完全合成的TikTok视频元数据记录，非爬取数据。
生成方法：使用复杂逻辑管道（data_generator.py）合成，包含“病毒性引擎”逻辑。
文本生成：使用 Qwen-2.5-3B-Instruct 模型及自定义“角色提示”生成模仿真实TikTok俚语的描述。
病毒性模拟：
1. 病毒性评分（0-100）：基于钩子强度和情感触发等因素。
2. 分层观看量分配：
  - 病毒层（约33%）：1M - 100M 观看量。
  - 中层（约33%）：100k - 2.5M 观看量。
  - 低层（约33%）：1k - 150k 观看量。
3. 噪声注入：添加“有机抖动”（+/- 5%）和随机噪声。
后处理：
- 年龄修复：将原始分类年龄范围（如“16-20”）转换为整数平均值（如18）。
- 偏差校正与异常值注入（通过fix_bias.py）：
  - 日期交换：将10%的“高病毒性”视频移至工作日发布。
  - 小时交换：将10%的“高病毒性”视频移至非高峰时段发布。
  - 沉睡爆款：将5%的“低病毒性”视频观看量提升至>1M。

4. 数据集用途

病毒性预测：训练回归模型以预测观看次数。
内容优化：分析驱动参与度的关键词和钩子。
社交媒体分析：理解不同细分领域（健身、科技、美食等）的趋势。

5. 探索性数据分析（EDA）关键发现

特征分布：数据集在类别上平衡，但观看量遵循长尾分布（类似真实社交媒体）。
文本与情感分析：描述中普遍存在网络俚语。
语义嵌入空间：视频描述在PCA和t-SNE投影中显示出按类别的明显聚类。
类别与情感：某些类别（如旅行、美食）偏向积极情感，其他类别（如恶作剧）情感更混合/消极。
特征相关性：粉丝数和视频时长与观看次数常存在相关性。
时间与类别交互：分析了发布时间对不同类别观看量的影响。
标签使用：顶级标签与类别分布一致。

6. 使用方式

python from datasets import load_dataset dataset = load_dataset("MatanKriel/social-assistent-synthetic-data") df = dataset[train].to_pandas() df.head()

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，合成数据集的构建需兼顾真实性与可控性。本数据集采用逻辑驱动生成框架，通过Qwen-2.5-3B语言模型模拟创作者身份生成视频描述，并设计加权概率引擎评估内容传播潜力。生成过程引入分层视图分配机制，将样本划分为高、中、低传播等级，同时注入有机抖动与离群值以增强数据复杂性。后续处理阶段对年龄字段进行数值化转换，并通过偏差修正模块模拟现实场景中的非常规传播现象，确保数据分布符合社交平台的长尾特征。

特点

该数据集涵盖多维度社交媒体元数据，包含创作者属性、内容特征与时空发布信息等结构化字段。其核心特点在于通过语义嵌入空间可视化技术展现内容类别的聚类特性，例如美食与科技领域在向量空间中形成明显区隔。情感分析热图揭示不同内容类别的情感倾向差异，而时间与类别的交互作用图则呈现各垂直领域的最佳发布窗口。数据集遵循真实社交媒体的非对称分布规律，在保持类别平衡的同时，视图数据呈现典型的幂律分布形态。

使用方法

该数据集适用于回归预测与内容策略分析等机器学习任务，用户可通过Hugging Face数据集库直接加载parquet格式文件。在模型训练前建议进行探索性数据分析，重点关注描述文本的词频分布与语义聚类特征。对于传播预测任务，可将视图列作为回归目标变量，结合创作者粉丝量、视频时长等特征构建预测模型。内容优化场景中，可通过情感分析与类别交叉验证挖掘高传播内容模式，利用时间序列分析模块识别不同垂直领域的最佳发布策略。

背景与挑战

背景概述

在社交媒体分析领域，预测内容传播潜力一直是核心研究议题。social-assistent-synthetic-data数据集由MatanKriel等研究人员于近期构建，旨在通过合成数据模拟TikTok平台视频的病毒式传播机制。该数据集聚焦于探索视频元数据（如描述文本、发布时机、创作者属性）与观看量之间的复杂关联，为机器学习模型提供训练基准，以推动内容优化策略与传播动力学研究，对数字营销与计算社会科学具有显著参考价值。

当前挑战

该数据集致力于解决社交媒体内容病毒性预测的挑战，其核心在于建模多模态特征（如文本情感、时间上下文）与非线性传播效应间的复杂交互。构建过程中，研究人员面临合成数据真实性与可控性的平衡难题：需通过加权概率引擎模拟现实传播规律，同时注入噪声与异常值以避免模型过拟合；此外，将年龄等分类变量转化为数值特征时，需确保分布一致性，以维持数据在回归任务中的有效性。

常用场景

经典使用场景

在社交媒体分析领域，该数据集为预测短视频内容传播潜力提供了标准化的实验平台。研究者利用其模拟的TikTok视频元数据，包括描述文本、发布时段和创作者属性，构建回归模型以精准预估视频观看量。这一场景常被用于探索内容特征与传播效果之间的非线性关联，例如通过分析情感倾向、话题类别与用户互动的关系，揭示驱动内容病毒式传播的内在机制。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态特征融合与可解释性人工智能方向。部分研究整合文本描述与元数据，构建端到端的病毒性预测框架；另有工作利用其合成的层次化结构，开发针对社交媒体长尾分布的专用损失函数。这些探索不仅丰富了社交计算领域的方法论，也为合成数据在复杂场景下的有效性验证提供了实证案例。

数据集最近研究