ComplexDataLab/chai-veracity-dry-run-20260506-clustered
收藏Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/ComplexDataLab/chai-veracity-dry-run-20260506-clustered
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: _batch
dtype: string
- name: claim
dtype: string
- name: cluster_id
dtype: string
- name: original_ids
list: string
- name: post_count
dtype: int64
splits:
- name: train
num_bytes: 5249986
num_examples: 5121
download_size: 4755916
dataset_size: 5249986
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
ComplexDataLab
搜集汇总
数据集介绍

构建方式
该数据集名为chai-veracity-dry-run-20260506-clustered,其构建聚焦于对社交媒体中与健康相关的声明进行聚类与整理。数据集的每条样本均包含一个唯一的标识符id、原始批次标签_batch、待验证的声明文本claim、聚类标识符cluster_id、聚类内原始文本标识符列表original_ids以及该聚类所涵盖的帖子数量post_count。通过将语义相似的声明归入同一聚类,并利用post_count量化集群规模,数据集为细粒度的真实性分析提供了结构化基础。
使用方法
使用时,可加载default配置下的train分片数据,数据以Parquet或类似格式存储在data/train-*路径下。开发者可通过遍历每条样本,提取claim字段进行声明级验证任务,或利用cluster_id和original_ids字段进行基于聚类的多声明协同推理。post_count可作为加权或重要性指标,辅助模型在训练与评估时关注高影响力声明集群。建议结合Hugging Face的datasets库直接加载,以利用缓存与流式处理功能,便捷开展实验。
背景与挑战
背景概述
在社交媒体与数字平台日益普及的今天,虚假信息的快速传播对社会信任、公共安全乃至民主进程构成了严峻挑战。为应对这一难题,自然语言处理领域亟需高质量、结构化的事实核查数据集,以支撑算法模型的训练与评估。chai-veracity-dry-run-20260506-clustered数据集应运而生,其创建时间推测为2026年,由专注于虚假信息检测的研究机构或团队开发。该数据集核心研究问题聚焦于如何基于聚类技术组织多源声明,实现高效的事实核查。通过对5121条训练样本进行聚类,该数据集为提升虚假信息检测模型的泛化能力与鲁棒性提供了重要基准,对推动事实核查技术从单一声明分析向群体性、关联性谎言检测演进具有深远影响。
当前挑战
该数据集所解决的领域问题在于,传统事实核查方法多针对独立声明,难以捕捉利用多策略、跨平台传播的谎言网络。其核心挑战包括:一是如何从海量、异构的社交媒体文本中精准识别并聚合语义相似的虚假声明,形成具有内聚性的聚类;二是在构建过程中,需克服声明来源的噪声与歧义性,确保同一聚类的声明在主题与意图上高度一致,避免因稀疏或模糊表述导致的误聚类;三是标注规模的限制(仅5121条样本)对模型在小样本场景下的泛化能力提出严峻考验,要求设计能够高效利用有限标注数据的算法。
常用场景
经典使用场景
在社交媒体虚假信息检测领域,研究者常利用该数据集进行跨平台谣言识别模型的训练与评估。该数据集包含5121条带有聚簇标签的声明(claim),每条声明关联其原始发布ID与对应批次的来源信息。经典的使用方式是将数据划分为验证与测试集,基于聚类标签构建声明级别的真值基准,从而训练模型区分真实信息与虚假内容,尤其关注在早期检测场景下如何利用有限的传播特征实现高效分类。
解决学术问题
该数据集系统性地解决了社交媒体虚假声明缺乏结构化标注与聚类关联的学术难题。通过提供cluster_id和original_ids字段,研究人员可以探索虚假信息传播中的语义相似性与群体行为模式,从而在假新闻检测中引入聚类分析,提升模型对同源变体声明的泛化能力。其意义在于为验证性检测(veracity detection)提供了层级化标注基准,推动了多实例学习、跨批次迁移等前沿方法在虚假信息溯源领域的应用。
实际应用
在实际应用层面,该数据集支撑了社交媒体平台的内容审核系统开发,尤其适用于舆情监控与主动辟谣工具。基于post_count字段,可量化每条声明的传播规模,帮助运营团队优先处置高扩散风险的虚假内容。此外,聚簇结构使得平台能够追踪同一谣言的变种在群组间的传播路径,从而优化自动举报过滤机制的响应速度与召回率。
数据集最近研究
最新研究方向
在虚假信息检测与事实核查领域,该数据集聚焦于将社交媒体上相互关联的声明按语义一致性进行聚类,为跨平台、跨语境的谣言传播链研究提供了结构化支撑。当前前沿方向围绕多模态谣言鉴别与大规模预训练模型的应用展开,尤其是利用图神经网络对“声明-证据”关系进行建模,以捕捉非线性传播模式。此外,随着生成式人工智能的普及,针对人工智能生成内容的真实性判定成为热点,而本数据集通过细粒度的聚类标识,助力研究者剖析同源变体声明之间的演化路径,对于构建可解释的自动化核查系统具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



