Harmful-Texts-On-Mastodon
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/ChaseLabs/Harmful-Texts-On-Mastodon
下载链接
链接失效反馈官方服务:
资源简介:
Mastodon有害内容检测野生数据集是一个包含3000条英文帖子的数据集,这些帖子是从2024年12月至2025年2月的Mastodon平台上收集的。该数据集用于评估大型语言模型在有害内容检测方面的鲁棒性、泛化能力和个性化表现。数据集反映了现实世界社交话语的复杂性和多样性,每个帖子都标注了三种粒度的标签:二进制、多类和多标签。
创建时间:
2025-10-17
原始信息汇总
Harmful Texts on Mastodon 数据集概述
数据集基本信息
- 名称:Harmful Texts on Mastodon
- 语言:英语
- 数据规模:3,000条英文帖子
- 时间范围:2024年12月至2025年2月
- 来源平台:Mastodon去中心化社交媒体平台
- 许可证:Apache-2.0
- 任务类别:文本分类
数据集特点
- 人工标注的真实社交媒体内容数据集
- 捕获真实社交话语中的自然分布、领域转移和语义重叠
- 专为评估大语言模型在有害内容检测中的鲁棒性、泛化性和个性化能力而设计
标注结构
三级标注粒度
- 二元分类:benign(良性)、harmful(有害)
- 多类别分类:benign(良性)、toxic(毒性)、spam(垃圾)、negative(负面)
- 多标签分类:可从{benign, toxic, spam, negative}中选择一个或多个标签
数据构建过程
- 初始语料:8,998,738条帖子 → 3,948,831条唯一英文条目
- 筛选策略:
- 随机抽样15,000条英文帖子
- 使用Llama-3模型进行初步有害性预测
- 选择1,500条预测为良性和1,500条预测为有害的帖子进行人工标注
- 最终数据集:3,000条标注帖子,在有害和良性示例之间保持平衡
标签统计
多类别分布
| 标签 | 数量 | 百分比 |
|---|---|---|
| Benign | 1798 | 59.9% |
| Negative | 755 | 25.2% |
| Toxic | 259 | 8.6% |
| Spam | 188 | 6.3% |
多标签分布
- 单一标签:2,020条
- 双标签:948条
- 三标签:32条
推荐用途
- 评估上下文学习和基于提示的个性化方法
- 研究有害内容检测中的鲁棒性和领域泛化
- 训练或测试多标签或推理增强的分类框架
- 基准测试跨任务、多任务和多模态内容审核模型
许可证信息
- 数据集使用CC BY 4.0许可证分发
- 用户应检查特定Mastodon实例的服务条款
搜集汇总
数据集介绍

构建方式
在去中心化社交媒体内容安全研究领域,该数据集通过严谨的构建流程实现真实场景还原。从2024年12月至2025年2月期间采集的899万条公开帖子中,首先筛选出394万条英文内容,采用随机抽样获得1.5万条初始样本。随后运用Llama-3模型进行48样本随机上下文学习的初步预测,根据预测结果均衡选取1500条良性内容与1500条有害内容,最终由专业标注人员进行三重粒度的人工标注,形成包含3000条标注数据的平衡数据集。
特点
该数据集的核心价值在于其真实性与多维度特性。相较于传统精心筛选的基准数据集,本数据集完整保留了社交平台原始内容的自然分布特征与语义重叠现象。其独特的三重标注体系——二元分类、多类别划分与多标签标注,有效捕捉了现实场景中内容危害性的复杂表征。数据分布呈现典型的长尾特征,其中良性内容占比59.9%,负面情绪内容占25.2%,毒性内容与垃圾信息分别占8.6%和6.3%,多标签组合情况更是体现了现实场景中危害内容的复合性本质。
使用方法
在有害内容检测模型评估实践中,该数据集支持多维度研究范式。研究者可基于三重标注体系开展二元分类、多类别识别或多标签预测任务,特别适用于评估大语言模型在真实场景中的领域适应能力。该资源为上下文学习方法的鲁棒性验证提供标准测试环境,支持提示词个性化策略的效果评估。同时,其多标签特性为构建推理增强型分类框架提供实验基础,适用于跨任务、多任务的内容审核模型基准测试,推动社交平台内容安全技术的创新发展。
背景与挑战
背景概述
随着社交媒体的普及,有害内容检测成为自然语言处理领域的关键研究方向。Harmful-Texts-On-Mastodon数据集由研究团队于2024年12月至2025年2月期间构建,聚焦去中心化社交平台Mastodon的真实语料。该数据集通过人工标注3000条英文帖子,旨在评估大语言模型在有害内容检测任务中的鲁棒性与泛化能力,其多粒度标注体系突破了传统平衡数据集的局限,为社交媒体内容治理提供了更贴近现实的研究基础。
当前挑战
该数据集致力于解决现实场景中有害内容语义重叠与领域迁移的复杂性挑战,例如同时包含负面情绪与侮辱性言论的混合型内容识别。在构建过程中,研究团队面临从海量原始数据中提取代表性样本的难题,需通过多阶段过滤与人工验证确保标注质量,同时需处理真实社交语境中存在的标注歧义与多标签共存现象,这对模型的多任务学习与语义理解能力提出了更高要求。
常用场景
经典使用场景
在社交网络内容安全研究领域,该数据集被广泛用于评估大型语言模型对有害内容的识别能力。其多粒度标注体系支持从二元分类到多标签分类的多种任务设定,尤其适合验证模型在真实社交场景中的语义理解与边界判断。研究者常将其作为基准数据集,测试模型对模糊表达、情感冲突及复合型有害内容的检测效果,为社交平台内容审核机制提供理论支撑。
解决学术问题
该数据集有效解决了传统基准数据集因过度清洗而导致的领域适应性问题。通过保留真实社交文本的语义重叠与分布偏移特性,它为研究社区提供了探究模型鲁棒性与泛化能力的实验平台。其多层级标注结构尤其适用于分析复合型有害内容的表征机制,推动了跨任务学习与多模态内容审核等前沿方向的方法创新。
衍生相关工作
该数据集催生了多项关于上下文学习个性化优化的研究,例如基于提示工程的毒性检测框架与多任务联合训练模型。部分工作利用其多标签特性开发了层次化分类架构,显著提升了模型对语义重叠内容的解析能力。这些衍生研究进一步拓展至跨平台内容迁移学习领域,为去中心化社交网络的内容治理提供了方法论支持。
以上内容由遇见数据集搜集并总结生成



