Community Notes 数据集

Name: Community Notes 数据集
Creator: 都柏林大学学院，都柏林，爱尔兰
Published: 2025-10-11 01:42:54
License: 暂无描述

arXiv2025-10-11 更新2025-11-19 收录

下载链接：

https://zenodo.org/records/16761304

下载链接

链接失效反馈

官方服务：

资源简介：

Community Notes数据集由X（原Twitter）平台上的社区内容审核项目组成，旨在评估该项目的动态和有效性。数据集包括对项目前四年中Notes和Ratings数据的解析，以及对所有Notes的语言检测。重点关注英语Notes，提取了嵌入的URL并识别了每个Note中的讨论主题。此外，还构建了Contributors之间的月度交互网络。这些资源为推进Community Notes研究提供了坚实的基础。

The Community Notes dataset is derived from the community content moderation project hosted on X (formerly Twitter), with the core objective of evaluating the dynamics and effectiveness of this initiative. The dataset includes parsed Notes and Ratings data spanning the first four years of the project, alongside language detection results for all submitted Notes. Focusing primarily on English-language Notes, the dataset extracts embedded URLs within the texts and identifies the discussion topics covered in each individual Note. Furthermore, a monthly interaction network among contributors has been constructed. These resources offer a solid foundation for advancing research related to Community Notes.

提供机构：

都柏林大学学院，都柏林，爱尔兰

创建时间：

2025-10-11

搜集汇总

数据集介绍

构建方式

在社交媒体内容治理领域，Community Notes数据集通过众包机制构建，涵盖2021年1月至2025年1月间X平台（原Twitter）的社区标注活动。研究团队系统采集了所有公开的标注文本及评分数据，运用语言检测技术筛选英文内容，并通过主题建模、URL提取和贡献者交互网络构建等多维度处理方法，形成结构化数据集。该构建过程严格遵循平台开源协议，确保数据来源的透明性与可复现性。

特点

该数据集呈现显著的长尾分布特征，少数高活跃度贡献者产出了大量标注内容，同时涵盖103种语言的跨文化对话样本。数据维度包含标注文本语义特征、来源引用可信度评估、政治倾向标注以及动态交互网络，其中英文标注中79.6%包含外部引用链接。特别值得注意的是，数据集完整保留了标注状态演变轨迹，包括需更多评分、已获帮助状态等关键状态流转信息，为研究社区驱动的信息验证机制提供了多角度观察窗口。

使用方法

研究者可基于该数据集开展社区治理机制评估、信息传播动力学建模等多维度研究。通过解析月度交互网络文件，能够追踪贡献者群体的协同模式与意见极化演变；结合主题聚类结果可分析不同议题领域的内容治理效能。数据集配套提供完整的预处理代码库，支持语言检测、网络构建等任务的复现与扩展，特别适用于比较不同评分算法对共识形成的影响，以及探索自动化标注系统与传统众包模式的协同机制。

背景与挑战

背景概述

社交媒体平台在缺乏编辑监督的环境下面临用户生成内容的快速增长与传播，这加剧了虚假信息的扩散风险。为应对此挑战，X平台于2021年1月推出Community Notes（原Birdwatch），成为首个大规模众包内容审核系统。该系统由都柏林大学等机构研究人员主导开发，核心目标在于通过集体智慧识别误导性内容，并为其补充上下文信息。其创新性体现在将传统专家审核与算法系统的局限性转化为社区驱动的动态解决方案，通过贡献者协作撰写注释与跨视角评分机制，显著提升了内容审核的覆盖范围与可信度，为社交媒体的治理范式提供了重要参考。

当前挑战

Community Notes在解决误导性内容识别领域面临多重挑战：其评分算法依赖跨意识形态共识，导致高度极化内容难以获得“有帮助”状态，削弱了及时干预能力；系统存在显著延迟问题，平均26小时的注释生效周期使多数内容错过传播高峰期。构建过程中的挑战包括自动化账户操纵风险，如加密货币相关注释的集中滥用；贡献者活动分布极度不均衡，少数用户主导大量产出，影响系统代表性与开放性；多语言环境下的语义一致性维护，以及政治偏见对注释质量评定的干扰，均为系统稳健性带来持续考验。

常用场景

经典使用场景

在社交媒体内容治理领域，Community Notes数据集为研究群体智能在虚假信息识别中的效能提供了典型范例。该数据集通过记录用户对推文背景注释的创作与评级行为，构建了覆盖全球热点议题的标注语料库，其中COVID-19、选举政治和地缘冲突等主题的注释占比显著，体现了公众对高影响力内容的关注偏好。研究者可基于该数据集分析群体共识形成机制，探索跨意识形态协作在事实核查中的可行性。

衍生相关工作

该数据集催生了多项创新研究，如结合大语言模型的Supernotes系统通过生成候选注释提升标注效率，HawkEye图算法通过迭代评估提升标注质量。学者们还构建了基于注释评级的时间演化网络，揭示了群体极化现象的动态特征。这些衍生工作共同推动了 crowdsourcing 治理范式从概念验证向工程化应用的转型。

数据集最近研究