ComplexDataLab/chai-veracity-dry-run-20260507-clustered-1a
收藏Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/ComplexDataLab/chai-veracity-dry-run-20260507-clustered-1a
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: _batch
dtype: string
- name: claim
dtype: string
- name: cluster_id
dtype: string
- name: original_ids
list: string
- name: original_texts
list: string
- name: post_count
dtype: int64
splits:
- name: train
num_bytes: 944443
num_examples: 793
download_size: 870154
dataset_size: 944443
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
ComplexDataLab
搜集汇总
数据集介绍

构建方式
该数据集名为chai-veracity-dry-run-20260507-clustered-1a,专为事实核查与虚假信息检测领域设计,通过聚类算法对大规模社交媒体文本进行结构化整理。构建过程以原始帖子文本为基础,提取核心声明(claim)作为主字段,同时将语义相似或主题相关的帖子归并为同一聚类,赋予唯一聚类标识符(cluster_id)。每个聚类内,原始帖子的ID与文本内容分别以列表形式存储于original_ids和original_texts字段中,post_count字段则记录聚类内帖子总数,从而在保留个体差异的同时实现了数据的有序聚合。整个数据集仅包含训练集,共793个样本,总大小约为0.9 MB,便于快速加载与迭代实验。
特点
该数据集的核心特色在于其多粒度结构,兼顾微观实例与宏观模式。每条记录不仅包含独立的声明文本(claim)及其唯一标识(id),还通过聚类机制将关联帖子凝聚为组,使得研究者既能考察单一声明的真实性,又能审视同一话题下不同表述的传播态势。batch字段的存在进一步增强了数据的分批管理能力,适合进行多轮次或分阶段的事实核查训练。此外,原始文本的完整保留与聚类内帖子数量的量化记录,为分析虚假信息的共性特征与变异规律提供了双重支撑,适合作为构建鲁棒性检测模型的基准数据。
使用方法
使用者可通过HuggingFace Datasets库轻松加载该数据集,默认配置下仅包含训练分割(splits='train'),支持快速读取与迭代。在应用场景中,可将claim字段作为输入,结合聚类内多帖子的上下文(original_texts),训练能够识别声明与证据关系的模型;亦可将cluster_id作为分组依据,设计跨样本的对比学习任务。由于数据已预先聚类,研究者可直接利用post_count进行聚类规模加权的损失函数设计,或通过original_ids实现与外部元数据的链接。建议在训练前对文本进行必要的清洗与分词处理,以适配下游的语义分析或序列建模框架。
背景与挑战
背景概述
在社交媒体与公共言论日益庞杂的当下,虚假信息(即“veracity”)的自动化检测已成为自然语言处理领域的一项关键任务,其核心在于对海量文本中的主张(claim)进行可信度评估。基于此背景,chai-veracity-dry-run-20260507-clustered-1a数据集由相关研究机构于2026年创建,以文本聚类与主张验证为核心研究问题,旨在为多源社交言论的集体真实性判断提供基准。该数据集包含793条训练样本,每条样本涵盖了来自同一话题簇的多个原始文本及其聚类标识,聚焦于如何从观点纷杂的信息聚合中提炼出统一事实。其影响力体现在为细粒度、跨文本的虚假信息检测研究提供了新颖的聚类化数据形态,推动了从单条文本到群体言论的认知范式转变。
当前挑战
该数据集所应对的领域挑战在于,传统的虚假信息检测多基于孤立文本,而现实中的误导性言论往往以群体形式出现,形成相互论证或矛盾的信息网络。构建过程中的挑战尤为突出:一方面,如何合理定义聚类边界,确保同一话题簇内的文本具有足够的事实关联性,同时避免主题漂移带来的噪音;另一方面,面对仅793条样本的有限规模,在保证标注一致性的前提下,需要有效平衡文本多样性(如不同表达方式的事实主张)与聚类内部的一致校验。此外,原始文本可能来自多种渠道,其语言风格与可信度背景的隐性差异也增加了在聚类层次上进行真实性的归因难度。
常用场景
经典使用场景
在信息验证与虚假信息检测的学术前沿,该数据集为研究者提供了聚焦于声明(claim)真实性的多源证据聚合分析平台。其核心设计在于将语义相似的原始文本(original_texts)依据聚类标识(cluster_id)归并,从而构建出声明与其支撑或反驳文本之间的结构化关联。经典使用场景包括:基于聚类思想的声明验证任务,即通过整合多条原始陈述中的共识与矛盾,训练模型判别声明的真伪;跨文本的事实一致性分析,利用批量(_batch)划分进行多轮交叉验证;以及针对社交网络中碎片化信息的可信度排序研究。这些任务均依赖于数据集提供的声明-证据对结构,为从离散文本中抽取可核验的事实要素提供了标准化基准。
实际应用
在实际应用层面,该数据集直接赋能于公共舆情监控、新闻事实核查与社交媒体内容审核等关键领域。具体而言,企业或监管机构可借助基于该数据集训练的模型,自动聚合某一热点声明下的海量用户讨论,快速识别其中反复出现的关键证据及其一致性程度,从而将人工核查效率提升数倍。例如,在公共卫生事件中,系统能够自动聚类关于“某药物疗效”的各类帖子,并评估其科学依据的充分性。此外,该数据集还适用于在线辩论平台中论点可信度的自动标注,以及金融机构中关于市场谣言的真实性预警,展现了从实验室研究向产业级决策支持工具转化的巨大潜力。
衍生相关工作
该数据集的设计理念深刻影响了后续一系列经典工作。在聚类声明验证方向,衍生出了基于图神经网络的多证据交互模型,用于建模声明与不同原始文本间的语义传递关系。跨文本一致性检测方面,有工作将其作为预训练基准,开发了声明级别的对比学习框架,以提升模型对细微事实矛盾的感知能力。此外,该数据集还催生了集成注意力机制的混合专家系统,专门处理非结构化社交媒体文本中证据权重动态分配的问题。这些衍生工作不仅在ACL、EMNLP等顶级会议上发表,更推动了虚假信息检测领域从单文本分类迈向多源协同推理的新阶段,为构建更加鲁棒的事实核查系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



