five

The Big Ban Theory (TBBT)

收藏
arXiv2026-01-28 更新2026-01-29 收录
下载链接:
https://doi.org/10.5281/zenodo.18245670
下载链接
链接失效反馈
官方服务:
资源简介:
The Big Ban Theory (TBBT) 是由意大利国家研究委员会等机构联合构建的大规模内容审核干预数据集,涵盖2015至2023年间Reddit和Voat平台的25类干预措施(如封禁、隔离等)。数据集包含33.9万用户发布的3870万条消息,每条记录均提供标准化元数据及干预前后三个月的用户活动伪匿名数据,支持分析审核行为的影响及潜在偏差。其创建过程通过六步流程实现,包括原始数据采集、机器人过滤、用户筛选及跨平台数据整合。该数据集旨在促进内容审核的公平性、有效性研究,解决现有数据碎片化问题,为跨平台、多类型干预的比较分析提供基础支撑。

The Big Ban Theory (TBBT) is a large-scale content moderation intervention dataset jointly developed by the National Research Council of Italy and other institutions. It encompasses 25 categories of intervention measures (e.g., bans, quarantines, etc.) across Reddit and Voat platforms spanning the years 2015 to 2023. The dataset contains 38.7 million messages posted by 339,000 users, with each record providing standardized metadata and pseudo-anonymized user activity data for three months prior to and following the intervention, enabling analysis of the impacts and potential biases of content moderation practices. Its construction follows a six-step workflow, including raw data collection, bot filtering, user screening, and cross-platform data integration. This dataset aims to advance research on the fairness and effectiveness of content moderation, resolve the problem of fragmented existing data, and provide foundational support for comparative analyses of cross-platform and multi-type intervention measures.
提供机构:
意大利国家研究委员会·信息科学与技术研究所; 比萨大学·计算机科学系; 比萨大学·信息工程系
创建时间:
2026-01-16
原始信息汇总

The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation

数据集基本信息

  • 发布日期:2026年1月15日
  • 当前版本:v1
  • 资源类型:数据集
  • 发布者:Zenodo
  • DOI:10.5281/zenodo.18245670
  • 访问状态:开放获取

数据集描述

The Big Ban Theory (TBBT) 是一个大规模数据集,旨在支持对在线内容审核干预效果的系统性研究。该数据集包含25种不同类型、严重程度和范围的审核干预(例如,社区封禁、社区隔离、伴随迁移的社区封禁以及帖子移除)。TBBT包含超过3800万条评论,这些评论收集自受审核干预影响的Reddit社区。对于每次干预,数据集提供了标准化的元数据以及经过假名化的用户活动数据,这些数据覆盖了干预执行前三个月和后三个月的时间段。这种干预前和干预后的设计使得对与审核干预相关的行为变化进行一致、可比较和可重复的分析成为可能。

该数据集在论文 "The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation Actions" 中进行了描述。如果使用此数据,请引用原始论文。引文详情将在论文发表后添加。

关于数据集结构和组织的更多详细信息,请参阅README文件和论文。

文件列表

  • ban.zip (1.5 GB) - MD5: fdc368b3ac87ae9206f29270a532034e
  • DATASHEET.md (5.0 kB) - MD5: 11f76425ecadee1696c33fa8bbd565df
  • LICENSE (291 Bytes) - MD5: f18538a72b4204781529b6165965df33
  • migration.zip (23.1 MB) - MD5: 5076a745c24db96cb0c04629aef15f4e
  • post_removal.zip (1.9 GB) - MD5: 39d365174b41446408b20e70b578eae9
  • quarantine.zip (685.6 MB) - MD5: 673cd48159e002b0a6f316518f2efc5c
  • README.md (4.1 kB) - MD5: f0107e8dab53a39be5ccbfb0f3e0d662

文件总大小:4.2 GB 数据总量:37.8 GB

创作者与所属机构

  • Cerulli, Aldo (数据策展人) - Institute of Informatics and Telematics; University of Pisa
  • Cima, Lorenzo (数据管理员) - Institute of Informatics and Telematics; University of Pisa
  • Tessa, Benedetta (研究员) - Institute of Informatics and Telematics
  • Tardelli, Serena (主管) - Institute of Informatics and Telematics
  • Cresci, Stefano (项目负责人) - Institute of Informatics and Telematics

使用许可

  • 许可证:Creative Commons Attribution Non Commercial No Derivatives 4.0 International

引用信息

Cerulli, A., Cima, L., Tessa, B., Tardelli, S., & Cresci, S. (2026). The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation [Data set]. Zenodo. https://doi.org/10.5281/zenodo.18245670

技术元数据

  • 创建日期:2026年1月15日
  • 修改日期:2026年1月27日

访问统计 (此版本)

  • 浏览次数:92
  • 下载次数:54
  • 数据下载量:33.6 GB

版本信息

  • 最新版本:v3 (DOI: 10.5281/zenodo.18393453,发布于2026年1月27日)
  • 所有版本DOI:10.5281/zenodo.18245669 (此DOI代表所有版本,并始终解析为最新版本)

外部索引

  • 索引于:OpenAIRE
搜集汇总
数据集介绍
main_image_url
构建方式
在数字内容治理领域,构建系统化的干预效果评估数据集面临数据碎片化与标准化不足的挑战。为此,The Big Ban Theory (TBBT) 数据集通过精心设计的六步流程构建而成:首先从公开资源中采集干预前后三个月内的原始数据,随后过滤自动化账户与低活跃度用户以聚焦受干预影响的群体;进而收集用户在干预空间内外的活动记录,并通过字段选择与标准化确保跨平台与跨时间的一致性;最后对所有标识符进行密码学哈希伪匿名化处理,在保护用户隐私的同时维持数据内部关联。这一流程覆盖了2015年至2023年间Reddit与Voat平台上的25项干预事件,囊括社区封禁、隔离、内容删除及跨平台迁移等多种类型,形成了包含近339K用户与39M消息的纵向观测集合。
使用方法
该数据集为在线内容治理研究提供了多角度的分析基础。研究者可利用其对齐的干预前后数据,通过描述性统计或因果推断方法(如双重差分法、中断时间序列分析)评估干预对用户活动、参与模式及行为指标(如毒性、语言特征)的短期与中期影响。数据集支持跨干预类型、平台与社区的对比研究,可用于探究治理实践的公平性、一致性及情境因素的调节作用。此外,其结构化设计也为预测建模提供了可能:以干预前信号为输入、干预后结果为标签,可训练模型预测用户流失、行为适应或社区动态变化,从而为前瞻性治理策略的开发提供依据。数据集还可与外部透明度报告结合,用于审计平台治理的合规性与问责机制。
背景与挑战
背景概述
随着在线平台规模与社会影响力的日益扩大,内容审核成为治理网络空间、遏制有害行为的关键机制。然而,现有研究因缺乏系统化数据资源,难以对审核干预的效果与潜在偏差进行深入、可复现的探索。在此背景下,意大利国家研究委员会信息科学与技术研究所(IIT-CNR)与比萨大学的研究团队于2026年联合发布了The Big Ban Theory(TBBT)数据集。该数据集聚焦于内容审核干预的实证研究,核心目标是解决现有数据碎片化、不可比的问题,通过整合Reddit与Voat平台上2015年至2023年间25次不同类型的审核干预事件,涵盖近33.9万用户与约3900万条消息,并系统提供了每次干预前后三个月内的标准化活动数据。TBBT的建立为评估审核策略的有效性、公平性与一致性提供了结构化基础,推动了内容审核研究向系统化、可累积的方向发展。
当前挑战
TBBT数据集致力于应对内容审核研究中的核心挑战:一是系统评估多种审核干预(如封禁、隔离、内容删除)在用户行为、社区动态与跨平台迁移等方面的异质性效果,从而超越以往案例研究的局限;二是解决数据构建过程中的多重困难,包括在“后API时代”数据可及性下降的背景下,从公开资源中提取、对齐多平台、跨年度的干预事件数据,同时通过伪匿名化处理平衡用户隐私保护与研究可用性,并设计统一的数据模型以兼容干预后空间不可访问(如社区封禁)等结构性缺失场景。
常用场景
经典使用场景
在在线内容治理研究领域,TBBT数据集为评估平台干预措施的效果提供了标准化分析框架。该数据集通过捕捉干预前后三个月内用户活动的完整轨迹,支持研究者对禁令、隔离、内容删除等多种干预类型进行纵向比较。经典应用场景包括分析用户在被干预后的行为变化模式,例如活动量下降、毒性语言使用频率变化或跨平台迁移现象,从而系统评估不同干预策略的实际成效与潜在副作用。
解决学术问题
TBBT数据集有效解决了内容治理研究中数据碎片化与可比性不足的核心难题。传统研究常受限于单一干预案例或平台特定数据,难以进行跨类型、跨平台的系统性比较。该数据集通过统一收集25项干预事件的标准元数据与伪匿名化用户活动记录,为公平性评估、干预效果异质性分析以及因果推断方法验证提供了可靠基础。其结构化设计使得研究者能够深入探讨治理决策的一致性、上下文因素的影响机制以及长期演化趋势,显著提升了该领域研究的科学严谨性与可复现性。
实际应用
该数据集的实际价值延伸至平台治理策略优化与监管合规实践。互联网平台可借助TBBT中的历史干预案例,构建预测模型以预判新治理措施可能引发的用户行为反应,从而设计更具针对性的早期预警系统。监管机构则能利用数据集评估平台执行治理政策时的透明度与一致性,识别潜在的系统性偏见或执行漏洞。此外,教育机构可将TBBT作为案例库,用于培训内容审核人员理解复杂干预场景下的连锁反应,推动人机协同治理模式的精细化发展。
数据集最近研究
最新研究方向
随着在线内容治理成为数字社会管理的核心议题,The Big Ban Theory(TBBT)数据集为系统评估内容审核干预的效果与公平性提供了关键基础设施。该数据集整合了Reddit和Voat平台上25种不同类型的审核干预事件,涵盖社区封禁、内容隔离、帖子删除等多种类型,并提供了干预前后三个月内近3900万条用户活动的标准化数据。当前研究前沿聚焦于利用该数据集开展跨干预类型、跨平台的比较分析,探索审核措施对用户行为模式、社区动态及跨平台迁移的异质性影响。特别是在数字服务法案(DSA)推动平台透明度改革的背景下,TBBT为验证平台自我报告数据的真实性、评估审核决策的一致性与公平性提供了实证基础。该数据集还支持预测模型的开发,旨在通过干预前的行为信号预测用户对审核的反应,从而为构建主动式、情境感知的内容治理系统提供方法学支持。这些研究方向不仅推动了内容审核领域的科学积累,也为平台治理的政策设计提供了数据驱动的洞察。
相关研究论文
  • 1
    The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation Actions意大利国家研究委员会·信息科学与技术研究所; 比萨大学·计算机科学系; 比萨大学·信息工程系 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作