five

COMMUNITYNOTES

收藏
arXiv2025-10-28 更新2025-10-31 收录
下载链接:
https://communitynotes.x.com/guide/en/under-the-hood/download-data
下载链接
链接失效反馈
官方服务:
资源简介:
COMMUNITYNOTES是一个大规模的多语言数据集,包含104,966条可能具有误导性的帖子及其对应的用户提供的解释性笔记和有用性标签。该数据集由墨尔本大学和MBZUAI的研究团队创建,旨在探索社区注释中解释性笔记的有用性及其原因。数据集内容涵盖了英语和其他多种语言,其中英语帖子占主导地位。该数据集通过从X社区注释网站上收集数据,并使用官方注释算法计算每个笔记的综合有用性和原因标签而构建。数据集已被分割为训练集、开发集和测试集,用于评估预测笔记有用性和原因的任务。该数据集的应用领域为社区事实核查,旨在解决如何提高社区注释的有用性和可解释性问题。

COMMUNITYNOTES is a large-scale multilingual dataset comprising 104,966 potentially misleading posts, along with their corresponding user-provided explanatory notes and usefulness labels. Developed by a research team from the University of Melbourne and MBZUAI, this dataset aims to explore the usefulness of explanatory notes in community annotations and the underlying reasons for such usefulness. The dataset covers English and multiple other languages, with English posts constituting the majority. It is built via data collection from the X Community Notes website and the computation of comprehensive usefulness and reason labels for each note using the official annotation algorithm. The dataset has been partitioned into training, development, and test sets to support the evaluation of tasks focused on predicting note usefulness and its corresponding reasons. Its application domain lies in community fact-checking, with the core goal of addressing the challenge of improving the usefulness and interpretability of community annotations.
提供机构:
墨尔本大学,MBZUAI
创建时间:
2025-10-28
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体平台逐步转向社区化事实核查的背景下,COMMUNITYNOTES数据集通过整合X平台公开的社区笔记数据构建而成。研究团队收集了2021年至2024年间发布的完整数据表,包括笔记内容、用户评分、笔记状态历史等核心组件,通过官方笔记排序算法对104,966条帖子进行多维度标注,形成包含58,569条英语数据和46,397条多语言数据的大规模语料库。数据预处理阶段采用分层抽样策略,按照7:1:2的比例划分训练集、验证集和测试集,确保数据分布的均衡性与代表性。
特点
该数据集最显著的特征在于其多模态架构与细粒度标注体系。每个数据样本包含原始帖子与对应的社区解释笔记,并标注了二元帮助性标签和18类详细原因标签,其中8类对应有帮助笔记,10类对应无帮助笔记。数据统计显示帖子平均长度为42个词元,笔记平均长度为70个词元,84.74%的帖子仅关联单条笔记,64.36%的帖子所有笔记均被标注为有帮助。语言分布呈现多元化特征,英语占比57.3%,日语和西班牙语分别占10.5%和9.9%,真实反映了社区事实核查的跨语言应用场景。
使用方法
该数据集支持双任务预测框架,既可进行笔记帮助性的二元分类,也可实现多标签原因分类。研究实践表明,通过自动提示优化技术生成的原因定义能显著提升模型性能,当采用多头注意力机制将优化后的定义与笔记表示融合时,DeBERTa-large模型在原因预测任务上的F1值达到0.677。数据集还可迁移应用于证据充分性预测任务,在CLIMATE-FEVER事实核查数据集上的实验证明,引入帮助性信息能使现代BERT模型的准确率提升至0.535,展现了其在增强自动化事实核查系统方面的实用价值。
背景与挑战
背景概述
在社交媒体平台日益成为信息传播核心渠道的背景下,COMMUNITYNOTES数据集于2025年由墨尔本大学与MBZUAI的研究团队共同创建,旨在应对社区驱动事实核查模式中的关键挑战。该数据集聚焦于用户生成解释性标注的有用性评估问题,通过整合X平台(原Twitter)的公开社区标注数据,构建了包含10.4万条多语言帖子与对应标注的大规模资源。其核心研究在于探索标注内容如何有效澄清误导性主张,并推动自动化系统对社区标注质量的量化分析,为去中心化事实核查机制的可扩展性与透明度提供了重要实证基础。
当前挑战
COMMUNITYNOTES数据集面临双重挑战:在领域问题层面,需解决社区标注有用性预测的模糊性问题,包括标注评级标准缺乏明确定义、多语言语境下的文化差异影响判断一致性,以及高传播性帖子中即时标注有效性的评估难题;在构建过程中,数据整合涉及复杂的多源表连接与官方排名算法复现,同时需处理标注理由的多标签分类噪声,并克服社区评级过程缓慢导致的标注稀疏性,这些因素共同增加了高质量监督信号提取的难度。
常用场景
经典使用场景
在社交媒体虚假信息检测领域,COMMUNITYNOTES数据集为评估用户生成解释性标注的有用性提供了重要基准。该数据集通过整合X平台上的社区标注数据,构建了包含10.4万条帖文与对应标注的大规模语料库,其中每条标注都经过社区投票机制获得有用性标签。研究人员利用该数据集训练语言模型,使其能够自动识别哪些解释性标注能有效澄清误导性信息,为社区驱动的真相核查机制提供了量化评估工具。
解决学术问题
该数据集有效解决了社区事实核查中标注有用性评估标准缺失的核心难题。通过提供标准化的有用性标签和原因标注,它使研究人员能够系统分析解释性标注的质量特征,突破传统专家核查模式在规模与时效上的局限。数据集构建的多任务预测框架不仅提升了有用性预测准确率至0.92F1值,更通过自动优化的原因定义将原因预测F1值提升约34%,为构建透明可解释的社区核查系统奠定理论基础。
衍生相关工作
基于该数据集衍生的研究推动了社区事实核查技术的多维发展。在方法层面,PROMPTAGENT框架通过蒙特卡洛树搜索优化原因定义生成,开创了标签定义自动优化的新范式。在应用层面,研究者将有用性预测迁移至证据充分性任务,验证了其跨领域泛化能力。此外,融合注意力机制的定义融合方法为多任务学习提供了新思路,相关技术已被拓展至Meta、TikTok等平台的社区审核系统建设中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作