Community Notes datasets

github2023-12-11 更新2024-05-31 收录

下载链接：

https://github.com/colin-fraser/communitynotes

下载链接

链接失效反馈

官方服务：

资源简介：

用于社区笔记的公开数据集，包含多种数据文件，如笔记、评分、笔记状态历史和用户注册信息等。

A publicly available dataset for community notes, encompassing a variety of data files such as notes, ratings, note status histories, and user registration information.

创建时间：

2023-11-30

原始信息汇总

数据集概述

数据集名称

名称: Community Notes
描述: 一个用于处理公共社区笔记数据集的简单包。

数据集内容

数据类型: .tsv 文件格式
包含内容:
- notes: 包含笔记的详细信息，如笔记ID、作者参与者ID、创建时间、推文ID等。
- ratings: 评分数据，可能分为多个文件。
- noteStatusHistory: 笔记状态历史记录。
- userEnrollment: 用户注册信息。

数据集操作

下载: 使用 download_all_data 函数自动下载最新数据集到指定目录。
读取与处理:
- 使用 read_community_notes_file 读取文件，自动选择合适的列类型。
- 使用 auto_format 函数自动应用格式化和相关转换。
- 对于大型数据集，支持使用 read_and_concat 函数读取并合并多个文件，或使用 build_cn_db 函数构建数据库进行处理。

数据集特点

日期格式: 使用自纪元以来的毫秒数表示日期，提供 millis_to_datetime 函数进行转换。
推文ID处理: 提供 id_to_datetime 函数从推文ID中提取创建日期。
URL生成: 自动生成非官方但有效的推文URL。

数据集使用注意事项

数据量大: 特别是评分数据集，可能占用大量存储空间（如超过3GB）。
内存管理: 处理大型数据集时，建议使用数据库或其他内存管理技术。

搜集汇总

数据集介绍

构建方式

Community Notes数据集通过Twitter的Birdwatch项目公开获取，数据以TSV格式存储，包含用户生成的笔记、评分、笔记状态历史以及用户注册信息。数据集的构建依赖于Twitter用户对特定推文的注释和评分，这些数据被定期更新并公开发布，供研究者和开发者使用。

特点

该数据集的特点在于其丰富的内容维度，涵盖了用户对推文的多种注释类型，包括误导性信息的分类、可信度评分等。此外，数据集还提供了详细的笔记状态历史记录，能够追踪笔记的创建、修改和删除过程。数据集的时间跨度较大，能够支持对社交媒体内容演变的长期研究。

使用方法

使用Community Notes数据集时，可以通过R语言中的`communitynotes`包进行数据下载和处理。数据集以TSV文件形式存储，用户可以使用`read_community_notes_file`函数读取数据，并利用`auto_format`函数自动格式化时间戳等字段。对于大规模数据，建议使用`duckdb`数据库进行高效查询和分析，以避免内存不足的问题。

背景与挑战

背景概述

Community Notes数据集是由Twitter的Birdwatch项目推出的公开数据集，旨在通过社区驱动的注释机制来识别和纠正社交媒体上的误导性信息。该数据集自2022年起逐步发布，涵盖了用户生成的注释、评分、注释状态历史以及用户注册信息等多维度数据。Birdwatch项目由Twitter的研究团队主导，核心研究问题在于如何通过众包的方式提升社交媒体信息的可信度与透明度。该数据集为研究社交媒体信息传播、虚假信息检测以及用户行为分析提供了宝贵的数据资源，推动了相关领域的研究进展。

当前挑战

Community Notes数据集在解决社交媒体虚假信息检测问题时面临多重挑战。首先，数据规模庞大且持续增长，尤其是评分数据集的分块存储方式增加了数据处理与分析的复杂性。其次，注释和评分的质量依赖于用户的参与度与判断能力，如何确保数据的准确性与一致性成为关键问题。此外，数据集中包含的时间戳格式（毫秒级）和ID转换等特殊处理需求，增加了数据预处理的技术难度。最后，数据集的动态更新特性要求研究者具备实时数据处理能力，以应对不断变化的社交媒体环境。

常用场景

经典使用场景

Community Notes数据集广泛应用于社交媒体内容分析领域，特别是在Twitter平台上。该数据集包含了用户对推文的注释、评分以及状态历史等信息，能够帮助研究人员深入理解用户如何对推文内容进行标注和评价。通过分析这些数据，研究者可以揭示社交媒体上信息的传播模式、用户行为以及内容可信度的评估机制。

解决学术问题

Community Notes数据集为解决社交媒体中的信息可信度问题提供了重要支持。通过该数据集，研究人员可以分析用户对推文的标注和评分，进而识别虚假信息、误导性内容以及潜在的操纵行为。这不仅有助于提升社交媒体平台的内容审核效率，还为学术界提供了丰富的数据资源，用于研究信息传播、用户行为和社会影响等关键问题。

衍生相关工作

基于Community Notes数据集，许多经典研究工作得以展开。例如，研究人员开发了基于用户标注的虚假信息检测模型，利用该数据集训练和验证模型性能。此外，该数据集还催生了关于社交媒体内容可信度评估的多项研究，探讨了用户标注行为与信息传播之间的关系，为社交媒体平台的治理和内容管理提供了理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集