tiktok-comments

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/mecoaoge2/tiktok-comments

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含视频元数据及相关评论信息，涵盖视频ID、描述、作者、URL、点赞数、评论数、观看数、创建时间等字段，以及评论ID、文本内容、作者、点赞数、创建时间、回复数、是否为回复、父评论ID等评论相关字段。数据集分为四个部分：train_.ipynb_checkpoints（1,857个样本）、train_chinh_tri（37,020个样本）、train_vin（23,683个样本）和train_vin_toxic（12,016个样本）。总下载大小约为5.2MB，数据集总大小约为41MB。

创建时间：

2026-04-24

原始信息汇总

根据您提供的数据集详情页面信息，以下是对该数据集的总结：

数据集概述

名称：tiktok-comments
来源：Hugging Face Datasets

数据集特征

该数据集包含以下字段：

video_id（字符串）：视频ID
video_description（字符串）：视频描述
video_author（字符串）：视频作者
video_url（字符串）：视频URL
video_like_count（整数）：视频点赞数
video_comment_count（整数）：视频评论数
video_view_count（整数）：视频观看数
video_create_time（整数）：视频创建时间（Unix时间戳）
keyword（字符串）：搜索关键词
source_file（字符串）：源文件名
comment_id（字符串）：评论ID
text（字符串）：评论正文
author（字符串）：评论作者
like_count（整数）：评论点赞数
create_time（整数）：评论创建时间（Unix时间戳）
reply_count（整数）：评论回复数
is_reply（布尔值）：是否为回复评论
parent_id（字符串）：父评论ID（如果是回复）

数据集划分与规模

数据集共分为4个划分，总大小为41,056,935字节，总示例数为74,576条：

划分名称	示例数	字节数
train_.ipynb_checkpoints	1,857	1,049,284
train_chinh_tri	37,020	20,775,635
train_vin	23,683	12,262,827
train_vin_toxic	12,016	6,969,189

下载大小：5,202,838字节

数据文件配置

默认配置 default 包含以下数据文件路径：

data/train_chinh_tri-*
data/train_vin-*
data/train_.ipynb_checkpoints-*
data/train_vin_toxic-*

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，尤其是短视频平台的研究中，评论数据是理解用户行为与内容生态的关键资源。tiktok-comments数据集通过系统化的网络爬取技术，聚焦TikTok平台，以关键词为锚点进行视频与评论的定向采集。每条数据记录不仅包含了视频的唯一标识符、描述内容、作者信息、播放链接及互动指标如点赞数、评论数与观看数，还精心提取了评论的具体文本、评论作者、其点赞数、发布时间、回复数量，并明确标识该评论是否为回复以及对应的父评论ID。数据以分片形式组织，涵盖多个主题子集如“chinh_tri”（政治）、“vin”（越南语）、“vin_toxic”（越南语毒性评论），共计约7.5万条样本，构建了多维度、细粒度的社交媒体语料库。

特点

该数据集的核心特色在于其结构化的层次化设计，将视频元数据与嵌套评论深度结合，为自然语言处理与社交媒体分析提供了丰富的特征维度。尤为突出的是，它通过关键字划分出特定主题领域，如政治类和毒性检测类，使得研究者能够针对性地开展情感分析、内容审核或舆情监控等任务。数据集中明确标注了评论的回复关系（通过parent_id和is_reply字段），这一设计使其天然支持对话树结构的重建与分析，从而揭示用户间的互动模式与话语传播路径。此外，丰富的计数型特征（如点赞数、评论数、观看数）为量化影响力提供了客观基准。

使用方法

使用tiktok-comments数据集时，研究人员可直接通过Hugging Face的datasets库加载，并根据具体任务灵活选择所需子集。例如，对于越南语毒性评论检测任务，优先选用'train_vin_toxic'子集；若进行政治话题舆情分析，则选用'train_chinh_tri'分片。在模型训练中，可将'text'字段作为输入，结合'is_reply'、'like_count'等特征进行多任务学习或特征增强。对于会话结构研究，可利用'parent_id'和'reply_count'字段重构评论树，并过滤掉非根节点以关注初始评论。数据加载后，建议结合video_create_time与create_time进行时间序列分析，以捕捉事件演变的动态趋势。

背景与挑战

背景概述

在社交媒体数据日益成为自然语言处理与计算社会科学研究的重要资源之际，TikTok作为全球最具影响力的短视频平台之一，其评论区蕴含着丰富的用户互动信息与舆论动态。该数据集由研究机构于近期创建，旨在系统性地收集和整理TikTok平台上的评论数据，涵盖视频元数据与评论内容的多维特征。核心研究问题包括探究平台内用户对话模式、情感倾向分布以及潜在的有害言论识别。通过提供结构化、多领域的评论样本，该数据集为社交媒体分析、网络舆情监测及多语言文本挖掘等领域提供了宝贵的基础资源，对推动短视频生态下的语言理解研究具有显著意义。

当前挑战

该数据集所面临的挑战首先在于领域问题的复杂性，即如何从海量、多语言且高度口语化的短视频评论中有效捕捉用户真实意图与社交语境，尤其在越南语等低资源语言上存在标注稀疏与语义歧义问题。构建过程中则需应对平台数据抓取的动态性、隐私边界限制及评论序列的嵌套关系（如回复与层级结构）带来的结构化困难。此外，敏感内容（如政治与有毒言论）的准确分类仍需克服跨文化情感标注一致性不足、评论长度短导致上下文缺失等障碍，从而确保数据集在监督学习与偏见校正中的可靠性与泛化能力。

常用场景

经典使用场景

在社交媒体与自然语言处理的交叉领域中，tiktok-comments数据集作为一项涵盖短视频评论生态的宝贵资源，常被用于多语言文本分析与情感挖掘。该数据集汇聚了来自TikTok平台的大量用户评论，涵盖政治（chinh_tri）、越南语通用内容（vin）及毒性检测（vin_toxic）等多个主题，为研究者提供了丰富的语料库。其经典使用场景包括训练深度学习模型以识别用户情绪倾向、构建对话生成系统以及解析评论间的互动结构，从而揭示短视频平台中碎片化信息传播的独特规律。

解决学术问题

该数据集有效解决了短视频评论领域标注数据匮乏的难题，尤其为非英语环境下的大规模社会舆情研究提供了关键支撑。通过分割出毒性评论子集，它推动了网络暴力检测与有害内容过滤算法的发展，助力学界在低资源语言的情感分类与仇恨言论识别任务上取得突破。这一数据集的出现，不仅丰富了社交媒体计算的理论框架，还促进了跨文化语境下用户行为模式的比较分析，对理解数字时代的公共话语空间具有深远意义。

衍生相关工作

基于tiktok-comments数据集，衍生出一系列经典学术工作，例如面向低资源语言的TikTok评论情感分类模型、融合多模态特征的评论质量评估框架，以及针对短视频平台特色的对话树结构分析系统。部分研究创新性地将政治评论子集与外部事件知识图谱结合，实现了话题演变轨迹的量化追踪。更有学者以此为基础，开发了面向越南语等区域语言的预训练语言模型，显著提升了非英语文本在情感分析和毒性检测任务上的性能表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集