five

community-notes-br

收藏
Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/histlearn/community-notes-br
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“Community Notes / X — Snapshot Público”,源自X平台(原Twitter)的Community Notes系统(原Birdwatch)的公开数据转储,旨在支持关于协作式内容审核和共识算法动态的研究,特别是在巴西政治敏感事件的背景下。数据集包含多种语言的笔记(以英语为主),但原始数据中未提供语言列,研究者需自行应用语言检测技术进行预处理。数据集结构包括五个主要表格:silver_notes(笔记内容及元数据)、silver_ratings(笔记评分)、silver_note_status_history(笔记状态历史)、silver_user_enrollment(评估者注册信息)和silver_note_requests(笔记请求)。数据经过三层处理流程(Raw、Bronze、Silver),确保类型转换和完整性。数据集存在约12%的孤立记录(引用不存在的笔记的评分和状态事件),这些记录在silver层中被移除。数据集适用于文本分类、事实核查、错误信息检测等任务,特别适合研究数字人文和政治传播的学者使用。
创建时间:
2026-04-09
原始信息汇总

Community Notes / X — Snapshot Público 数据集概述

基本信息

  • 数据集名称: Community Notes / X — Snapshot Público
  • 发布者: histlearn
  • 发布日期: 2026年
  • 发布平台: Hugging Face
  • 数据集地址: https://huggingface.co/datasets/histlearn/community-notes-br
  • 许可证: cdla-permissive-2.0
  • 任务类别: 文本分类
  • 数据规模: 100M<n<1B

数据内容与来源

  • 数据来源: 基于X平台(原Twitter)Community Notes(原Birdwatch)系统的公共数据转储。
  • 系统描述: Community Notes是一个协作式内容审核系统,志愿者用户为可能具有误导性的帖子撰写上下文注释,并评估其他参与者的注释。共识算法决定公开显示哪些注释。
  • 研究动机: 该数据集旨在保存公共转储的完整关系结构,以促进关于共识动态的研究,特别是研究其在巴西政治敏感事件背景下如何运作(或未能运作)。
  • 语言特性: 数据集为多语言,主要包含英语,但也包含葡萄牙语、西班牙语、法语、德语、日语、阿拉伯语等数十种语言。原始数据没有语言列,研究人员需在本地应用语言检测作为预处理步骤。

数据结构与组成

数据集包含多个配置(config),主要数据表如下:

配置名称 描述 主键 数据量示例 (2026-04-07快照)
silver_notes 包含分类、摘要和元数据的注释 noteId ~2.6M
silver_ratings 对注释的个体评分 noteId + raterParticipantId ~190M*
silver_note_status_history 算法状态历史记录 noteId ~2.4M*
silver_user_enrollment 评分者注册和状态信息 participantId ~141k
silver_note_requests 请求为推文添加注释的信号 tweetId ~51k

注:已清除孤立记录后的数量。

其他配置包括notes, ratings_events, status_events, contributors, note_requests, tweet_note_bridge, ratings_with_contributor_state

数据关系

tweets (外部数据,转储中不包含) │ ├── silver_notes (noteId, tweetId) │ │ │ ├── silver_ratings (noteId, raterParticipantId) │ │ └── silver_user_enrollment (participantId) │ │ │ └── silver_note_status_history (noteId) │ └── silver_note_requests (tweetId)

数据处理流程

数据经过三层处理:

  1. Raw层: 公共转储的原始TSV文件,保留MD5和SHA-256校验和。
  2. Bronze层: 使用DuckDB摄取,所有列均为VARCHAR类型,通过union_by_name合并分片,并添加快照和摄取元数据。
  3. Silver层: 添加辅助类型列(ID转为BIGINT,从createdAtMillis派生的时间戳),并移除孤立记录。

数据完整性与限制

  • 孤立记录问题: 公共转储不包含所有曾经存在的注释,导致存在引用缺失注释的评分和状态事件记录(孤立记录)。
  • 清理前统计(2026-04-07快照):
    • ratings中**11.36%**的noteId没有对应注释(约297k条注释,~19M行)。
    • status中**12.66%**的noteId没有对应注释(约348k条注释)。
    • enrollment中**0%**的评分者为孤立记录。
  • 方法论决策: 孤立记录已从Silver层表中移除。完整分析见metadata/orphan_analysis.parquet。这意味着数据集覆盖了约88%的被评分注释;其余约12%代表存在但在此转储中无法观察到的共识。

快速使用指南

通过Hugging Face Datasets加载

python from datasets import load_dataset notas = load_dataset("histlearn/community-notes-br", "silver_notes", split="train") ratings = load_dataset("histlearn/community-notes-br", "silver_ratings", split="train") status = load_dataset("histlearn/community-notes-br", "silver_note_status_history", split="train")

通过DuckDB直接读取Parquet文件

python import duckdb con = duckdb.connect() notas = con.execute(""" SELECT * FROM hf://datasets/histlearn/community-notes-br/data/snapshot_date=2026-04-07/silver_notes/**/*.parquet LIMIT 100 """).fetchdf()

语言过滤(本地处理)

由于数据集不包含语言分类,建议使用fastText lid.176.bin模型对summary字段进行语言检测以过滤特定语言(如葡萄牙语)的注释。

数据溯源与引用

  • 原始数据源: https://communitynotes.x.com/guide/en/under-the-hood/download-data
  • 原始数据许可: 由X根据公共使用条款提供。
  • 处理管道: 完整代码随附于该仓库的Notebook中。
  • 校验和: 每个下载文件的MD5和SHA-256均记录在清单中。
  • 引用格式: bibtex @dataset{community_notes_br_2026, author = {histlearn}, title = {Community Notes / X — Snapshot Público}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/histlearn/community-notes-br} }

研究背景

该数据集是UFSCar / NILC数字人文研究项目的一部分,旨在调查Community Notes的共识算法在面对巴西政治敏感事件时的运作情况,特别是研究高关注度和高模糊性事件是否系统地比更“简单”的虚假信息(如虚假视频、媒体操纵等)产生更少的算法共识。

搜集汇总
数据集介绍
main_image_url
构建方式
在数字人文与社交媒体研究领域,Community Notes / X — Snapshot Público 数据集的构建遵循严谨的数据工程流程。该数据集源于X平台(原Twitter)Community Notes系统的公开数据转储,通过三层处理管道实现结构化。原始TSV文件首先被完整保留并校验,随后在Bronze层以DuckDB进行无类型推断的原始导入,最终在Silver层完成数据类型转换与数据清洗,特别是移除了因公开转储不完整而产生的孤儿记录,确保了约88%已评估笔记的观测覆盖,为共识动态研究提供了可靠基础。
特点
该数据集的核心特征在于其完整保留了Community Notes系统的关系型数据结构,涵盖笔记、评分、用户状态与请求等多个关联表,数据规模达到数亿条级别。作为一个全球性多语言数据集,其内容以英语为主,同时包含葡萄牙语、西班牙语等多种语言,但原始数据未提供语言标注列,这要求研究者需自主进行语言检测预处理。数据集特别聚焦于巴西政治背景下的敏感事件,为研究协作式内容审核算法在复杂社会语境中的运作与失效机制提供了独特视角。
使用方法
研究者可通过Hugging Face Datasets库直接加载特定的数据配置,如笔记、评分或状态历史表,进行便捷的数据访问与分析。对于大规模计算,亦可使用DuckDB直接读取Parquet格式文件以获得更佳性能。鉴于数据集的多语言特性,使用前需应用如fastText等语言识别模型对文本字段进行语言分类与过滤,以提取特定语言的研究样本。数据集配套的元数据文件,如完整性摘要与孤儿记录分析,为评估数据质量与设计稳健的研究方法提供了关键依据。
背景与挑战
背景概述
社区笔记数据集源于X平台(原Twitter)的Community Notes系统,该系统是一种协作式内容审核机制,由志愿者用户撰写上下文笔记以澄清潜在误导性帖子,并通过共识算法决定公开显示的笔记。该数据集由histlearn研究团队于2026年构建,旨在支持数字人文领域的研究,特别是针对巴西政治敏感事件中共识动态的深入分析。数据集完整保留了公开转储的关系结构,涵盖了多语言笔记、用户评分及状态历史等核心数据,为研究在线信息生态中的集体事实核查行为提供了重要实证基础。
当前挑战
该数据集致力于解决社交媒体中错误信息检测与共识形成的复杂挑战,其核心问题在于如何通过算法协调多元用户评估以识别可靠内容。构建过程中的主要困难包括数据完整性问题,例如公开转储缺失部分历史笔记,导致约12%的评分与状态事件因引用缺失而成为孤儿记录;此外,数据集缺乏明确的语言标注,研究者需额外应用语言检测模型对多语言内容进行分类,这增加了预处理阶段的复杂度与计算成本。
常用场景
经典使用场景
在数字人文与计算社会科学领域,社区驱动的信息验证机制正成为研究焦点。Community Notes数据集作为X平台(原Twitter)公开的协作式事实核查系统快照,其经典应用场景集中于分析大规模用户生成的注释与评级数据,以揭示在线共识形成的动态过程。研究者通过该数据集能够追踪特定政治事件或争议性话题下,社区成员如何通过撰写上下文注释、相互评估来构建集体认知,进而探索算法如何筛选并展示被广泛认可的注释,从而理解去中心化内容审核系统的运作机理。
解决学术问题
该数据集有效应对了信息科学与社会学交叉领域的若干核心议题。它为解决在线平台中虚假信息传播的治理难题提供了实证基础,使学者能够量化评估协作式事实核查的效果与局限性。通过分析注释状态的历史变迁与用户评级模式,研究可以深入探讨算法共识在政治敏感语境下的稳健性,识别系统可能存在的偏见或失效情形。此外,数据集支持对跨文化、多语言环境下公众参与内容审核的行为差异进行研究,为设计更公平、透明的信息生态系统提供理论依据。
衍生相关工作
围绕该数据集已催生一系列具有影响力的衍生研究。学者们利用其多语言注释数据开发了自动语言检测与分类管道,以支持跨地域比较研究。在计算社会科学领域,研究工作聚焦于建模用户评级网络,以预测注释的最终共识状态,并探究群体极化现象。另有研究结合外部推文数据,分析社区笔记对公众认知与信息传播轨迹的实际影响。这些工作共同推进了对在线协作治理机制的理解,并为构建更健全的数字公共领域奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作