YouTube and TikTok评论数据集

Name: YouTube and TikTok评论数据集
Creator: 国际巴尔干大学
Published: 2025-06-12 01:59:33
License: 暂无描述

arXiv2025-06-12 更新2025-06-13 收录

下载链接：

https://github.com/Ammce/llmbalkan-toxicity

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由国际巴尔干大学的研究人员构建，包含来自YouTube和TikTok平台的4500条评论，涵盖塞尔维亚、克罗地亚和波斯尼亚三种语言。数据集涉及音乐、政治、体育、模特、影响者、性别主义和一般话题等多个类别，旨在用于评估大型语言模型在低资源环境下的毒性语言检测能力。数据集已进行手动标注，标注过程由两位作者完成，并采用Cohen's Kappa系数进行可靠性评估。

This dataset was constructed by researchers from the International Balkan University, containing 4,500 comments sourced from YouTube and TikTok platforms across three languages: Serbian, Croatian, and Bosnian. It covers multiple categories including music, politics, sports, modeling, influencers, sexism, and general topics, and is designed to evaluate the toxic language detection capabilities of large language models (LLMs) in low-resource environments. The dataset has undergone manual annotation completed by two authors, and its annotation reliability was assessed using the Cohen's Kappa coefficient.

提供机构：

国际巴尔干大学

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

YouTube and TikTok评论数据集的构建采用了多阶段流程，首先通过YouTube Data API和TikTok爬虫脚本从公开视频中采集了4,500条塞尔维亚语、波斯尼亚语和克罗地亚语评论，涵盖音乐、政治、体育等多元内容类别。为确保数据质量，研究团队实施了严格的预处理，包括非目标语言过滤、隐私信息脱敏处理，并保留表情符号等关键语义特征。数据标注由两位精通巴尔干语言的研究者独立完成，采用Davidson等人定义的毒性标准，通过讨论解决标注分歧，最终达到0.87的Cohen's Kappa系数，体现了高标注一致性。

使用方法

研究者可通过两种范式利用该数据集：零样本模式下直接输入原始评论测试模型基础性能；情境增强模式则需同步提供视频背景描述以评估上下文理解能力。标准化提示模板要求模型输出0/1二元分类，确保结果可比性。建议采用精确率、召回率、F1值等指标进行系统评估，重点关注模型对区域俚语、反讽及混合文字的处理能力。数据集特别适用于探究提示工程对低资源语言毒性检测的优化效果，也为跨文化语境下的NLP模型鲁棒性研究提供了宝贵资源。

背景与挑战

背景概述

YouTube and TikTok评论数据集由国际巴尔干大学的Amel Muminovic和贝尔格莱德大学的Amela Kadric Muminovic于2025年创建，旨在解决巴尔干地区低资源语言（塞尔维亚语、克罗地亚语和波斯尼亚语）中有毒语言检测的难题。该数据集包含4500条手动标注的YouTube和TikTok评论，覆盖音乐、政治、体育、性别歧视等多个话题领域。其研究背景植根于社交媒体内容审核的迫切需求，特别是在政治敏感和后冲突地区，匿名性和缺乏问责机制导致有毒语言泛滥。该数据集的建立填补了巴尔干语言在自然语言处理领域的空白，为开发更精准的内容审核工具提供了重要资源。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域问题层面，低资源语言的形态复杂性、方言多样性及西里尔/拉丁字母混用现象，导致模型难以捕捉文化特定表达（如讽刺、俚语）；构建过程中，注释者需处理代码转换、历史政治敏感内容，以及平台特有的非正式表达（如表情符号和缩写），使得标注一致性难以保障（Cohen's Kappa=0.87）。此外，短视频语境的高度碎片化要求人工编写视频背景描述，这种非自动化方法在可扩展性上存在局限。

常用场景

经典使用场景

YouTube and TikTok评论数据集在自然语言处理领域中被广泛用于研究低资源巴尔干语言（如塞尔维亚语、克罗地亚语和波斯尼亚语）中的毒性语言检测。该数据集通过手动标注的4500条评论，覆盖了音乐、政治、体育、模特、网红内容、性别歧视讨论等多个类别，为研究者提供了一个多样化的语言环境来测试大型语言模型的性能。特别是在零样本和上下文增强模式下，该数据集帮助评估了模型在识别侮辱、仇恨言论、威胁和有害讽刺等方面的能力。

解决学术问题

该数据集解决了低资源语言中缺乏标注数据的核心问题，为毒性语言检测研究提供了重要的基准。通过引入上下文增强策略，研究表明即使是简短的视频描述也能显著提升模型的召回率和F1分数（平均提升0.12和0.10）。这不仅验证了上下文信息在理解文化特定表达（如俚语和讽刺）中的关键作用，还为低资源语言的自动化内容审核提供了可行的技术路径，弥补了传统方法在巴尔干语言中的性能短板。

实际应用

在实际应用中，该数据集可直接服务于社交媒体平台的自动化审核系统。例如，YouTube和TikTok可利用其标注数据训练或优化针对塞尔维亚语、克罗地亚语和波斯尼亚语的毒性内容过滤器。研究证明，结合上下文提示的Gemini 1.5 Pro模型（F1分数0.82）能有效降低漏检率，适用于对敏感性要求较高的场景。此外，数据集的分类结果还可用于设计混合审核策略，如将高精度的GPT-4.1零样本模式与高召回率的上下文增强模型结合，平衡误报与漏报。

数据集最近研究