five

COMMUNITYNOTES

收藏
github2025-11-01 更新2025-11-06 收录
下载链接:
https://github.com/ruixing76/Helpfulness-FCExp
下载链接
链接失效反馈
官方服务:
资源简介:
COMMUNITYNOTES是一个大规模多语言数据集,包含10.4万个帖子,带有用户提供的解释性笔记和有用性标签,用于探索事实核查解释的有用性预测任务

COMMUNITYNOTES is a large-scale multilingual dataset consisting of 104,000 posts paired with user-provided explanatory notes and usefulness tags, and is designed for exploring the usefulness prediction task of fact-checking explanations.
创建时间:
2025-10-20
原始信息汇总

Helpfulness-FCExp 数据集概述

基本信息

  • 数据集名称: Helpfulness-FCExp
  • 版本: 1.0.0
  • 许可证: MIT
  • 编程语言: Python
  • 代码覆盖率: 80%

研究背景

  • 主要平台(如X、Meta和TikTok)的事实核查正在从专家驱动验证转向社区设置
  • 重要挑战是确定解释是否有助于理解现实世界声明及其原因
  • 实践中大多数社区笔记因社区注释缓慢而未被发布
  • 帮助性原因缺乏明确定义

核心特性

  • 引入预测解释性笔记帮助性及其原因的任务
  • 提供COMMUNITYNOTES大规模多语言数据集,包含10.4万条带有用户提供笔记和帮助性标签的帖子
  • 提出通过自动提示优化自动生成和改进原因定义的框架
  • 实验表明优化定义可以改进帮助性和原因预测
  • 帮助性信息有益于现有事实核查系统

数据集构成

COMMUNITYNOTES

  • 数据集成和许可正在最终确定中
  • 最终数据集即将发布

相关数据集

  • CLIMATE-FEVER数据集:https://github.com/tdiggelm/climate-fever-dataset
  • SufficientFacts数据集:https://huggingface.co/datasets/copenlu/sufficient_facts

技术框架

原因定义生成与优化

  1. 种子原因定义生成:为每个类别随机采样40个实例,使用GPT-4o模型生成候选定义
  2. 原因定义优化:使用基于蒙特卡洛树搜索的PromptAgent框架优化初始定义

预测器训练

  • 将优化的帮助性原因定义整合到预测器训练过程
  • 预测器应更关注相关的帮助性原因

使用方式

训练与评估

python python train_plm_trainer_multitask_mha.py --model_name [MODEL_NAME] --max_length 512 --batch_size 64 --epochs 10 --lr 2e-5 --output_dir ./output-plm-mha --save_dir ./save-plm-mha --label_embeddings_path [LABEL_EMBEDDINGS] --report_to wandb --run_name [EXAMPLE_PROJ_NAME]

泛化实验

  • 使用SufficientFacts数据集测试解释帮助性的泛化能力
  • 支持在CLIMATE-FEVER数据集上进行测试

论文信息

  • 标题: COMMUNITYNOTES: A Dataset for Exploring the Helpfulness of Fact-Checking Explanations
  • arXiv链接: https://arxiv.org/abs/2510.24810
  • 作者: Rui Xing, Preslav Nakov, Timothy Baldwin, Jey Han Lau
  • 机构: 墨尔本大学, MBZUAI
  • 联系方式: rui.xing@student.unimelb.edu.au
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体平台逐渐转向社区驱动的事实核查机制背景下,COMMUNITYNOTES数据集通过系统化采集流程构建而成。该数据集整合了来自X、Meta和TikTok等主流平台的10.4万条多语言帖子,每条数据均包含用户生成的解释性注释及人工标注的有用性标签。构建过程中采用分层抽样策略,针对不同内容类别随机选取样本实例,并基于蒙特卡洛树搜索算法对初始定义进行自动化优化,确保数据标注质量的持续提升。
使用方法
基于该数据集的研究实践主要围绕多任务预测框架展开。使用者可通过加载预训练语言模型,结合特定的嵌入表示路径进行联合训练,同时预测解释内容的有用性及其背后的原因类别。实验配置建议采用512的最大序列长度与64的批处理规模,通过多头注意力机制融合优化后的原因定义。此外,数据集支持泛化性验证,研究人员可借助专用脚本在CLIMATE-FEVER等基准数据集上测试模型性能,完整实现流程已封装为标准化命令行接口。
背景与挑战
背景概述
随着社交媒体平台如X、Meta和TikTok的兴起,事实核查机制正从专家主导模式转向社区驱动模式,用户通过提交解释性笔记来澄清误导性内容。COMMUNITYNOTES数据集由墨尔本大学、MBZUAI等机构的研究团队于2025年创建,旨在探索社区笔记在事实核查中的有效性。该数据集聚焦于评估解释性笔记的实用价值及其背后的原因,填补了社区参与式事实核查研究中缺乏系统性评估标准的空白,为理解用户生成内容的可信度提供了重要数据支撑。
当前挑战
在社区事实核查领域,核心挑战在于如何准确定义和量化解释性笔记的实用性,现有研究缺乏对帮助性原因的清晰界定。数据集构建过程中面临多语言内容整合的复杂性,需处理超过10万条帖子与笔记的标注一致性;同时,社区标注效率低下导致大量笔记未被及时发布,加剧了数据稀疏性问题。此外,自动化生成优化原因定义时,需平衡提示工程的精确性与模型泛化能力,这对预测框架的鲁棒性提出了更高要求。
常用场景
经典使用场景
在社交媒体事实核查领域,COMMUNITYNOTES数据集被广泛应用于评估用户生成解释性笔记的有用性。该数据集通过标注104,000条多语言帖子及其对应的社区笔记,为研究者提供了分析解释性内容质量的标准基准。典型应用包括训练机器学习模型,以自动识别哪些笔记能够有效澄清误导性声明的真实性,从而优化社区驱动的事实核查流程。
解决学术问题
该数据集致力于解决社区事实核查中解释性笔记质量评估的学术难题。通过构建大规模标注数据,它填补了传统专家核查与群体智慧融合研究的空白,明确了有用性判定的多维标准。其意义在于推动了自动化事实核查系统的发展,为理解群体认知机制提供了实证基础,显著提升了虚假信息治理的理论深度。
实际应用
实际应用中,该数据集被整合至社交媒体平台的内容审核管道,辅助实现社区笔记的自动化筛选与排序。例如,通过预测笔记的有用性理由,平台可优先展示高质量解释,加速谣言澄清进程。这种机制在X、Meta等平台的社区核查系统中已显现潜力,有效缓解了人工审核滞后性问题。
数据集最近研究
最新研究方向
随着社交媒体平台逐渐转向社区驱动的辟谣机制,COMMUNITYNOTES数据集聚焦于评估事实核查解释的有用性及其深层原因。当前研究前沿围绕多语言环境下自动化预测模型开发,通过蒙特卡洛树搜索优化提示定义,显著提升解释质量判定的准确度。这一方向不仅缓解了社区标注效率低下的瓶颈,更通过融合有用性信息增强了现有事实核查系统的泛化能力,为虚假信息治理提供了可扩展的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作