ComplexDataLab/chai-veracity

Name: ComplexDataLab/chai-veracity
Creator: ComplexDataLab
Published: 2026-05-07 08:57:19
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/ComplexDataLab/chai-veracity

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: _batch dtype: string - name: claim dtype: string - name: cluster_id dtype: string - name: original_ids list: string - name: original_texts list: string - name: post_count dtype: int64 splits: - name: train num_bytes: 944443 num_examples: 793 download_size: 870154 dataset_size: 944443 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

ComplexDataLab

搜集汇总

数据集介绍

构建方式

在假新闻检测与事实核查领域，数据集的构建往往面临标注成本高、真实场景模拟不足等挑战。chai-veracity数据集通过整合社交媒体平台上的用户生成内容，构建了一个聚焦于信息真伪判别的资源库。该数据集包含793条训练样本，每条样本由唯一的标识符id、批次信息_batch、待核查声明claim、聚类标识cluster_id、原始文本标识列表original_ids、原始文本内容列表original_texts以及帖子数量post_count组成。数据采用多源聚合策略，将同一主题下的多个相关帖子归并为同一集群，从而捕捉言论的多样性，为后续的细粒度真实性分析奠定基础。

特点

chai-veracity数据集的核心特点在于其结构化设计对多视角信息的整合能力。通过cluster_id字段，数据集将分散在不同原始文本中的声明关联起来，使得模型能够学习到同一事件或主张在不同语境下的表达差异。同时，post_count字段量化了每一声明所依托的帖子数量，为评估信息传播广度提供了量化指标。这种设计不仅涵盖了声明级别的真实性判断，还隐含了源内容的一致性与冲突性特征，使得数据集适用于多实例学习与群体智慧挖掘任务。

使用方法

该数据集的使用方式灵活且适配常见自然语言处理流程。用户可通过加载train分片中的JSON文件，直接提取claim字段作为输入文本，并结合original_texts字段进行上下文增强。对于事实核查任务，可将聚类ID作为隐含的篇章结构线索，构建图神经网络模型以捕捉跨声明的关联。此外，post_count可作为样本权重因子，用于训练阶段平衡不同流行度声明的影响。推荐采用交叉验证策略对声明级别的分类器进行调优，并利用多源文本进行注意力机制训练以提升鲁棒性。

背景与挑战

背景概述

在社交媒体成为信息传播主阵地的当下，虚假信息泛滥已成为全球性治理难题。chai-veracity数据集由致力于虚假信息检测的研究团队构建，旨在推动社交媒体中声量级真伪辨识研究。该数据集收录了793条训练样本，每条样本包含主张文本、原始内容及关联帖文数量等特征，聚焦于通过群体互动特征判断信息真实性。其核心研究问题在于揭示虚假信息在传播模式上的量化特征，为自动化检测提供基准。该数据集的发布为计算社会科学与自然语言处理的交叉领域提供了稀缺的高质量资源，尤其对舆情监控与公开信息治理具有重要参考价值。

当前挑战

chai-veracity数据集所应对的领域挑战在于如何从无序的群体传播行为中提取有效真伪判别信号，传统基于单一文本的检测方法难以捕捉虚假信息利用社交网络扩散的复杂模式。构建过程中面临的挑战包括：原始数据来源于多源异构平台，需对非结构化文本进行标准化清洗与去重处理；主张文本与关联帖文之间存在语义漂移，难以通过简单聚类实现精准匹配；有限的样本规模（793例）与类别不均衡问题易导致模型过拟合，同时不同语言和文化的传播特征差异进一步削弱了泛化能力。

常用场景

经典使用场景

在社交媒体信息泛滥的时代，虚假信息检测成为自然语言处理领域的重要课题。chai-veracity数据集专为多源传播的碎片化文本真实性验证而设计，其经典使用场景聚焦于基于声明级信息的虚假新闻识别任务。研究人员可利用该数据集中的claim字段作为核心输入，辅以original_texts中提供的原始文本片段，构建能够综合多文档语义一致性的分类模型。该数据集通过精细的cluster_id和post_count特征，支持对同一主题下多个传播源的可信度进行联合建模，从而探索群组传播模式对声明确认性的影响。这种设计使得chai-veracity特别适用于训练和评估那些需要处理不完全或矛盾信息源的谣言检测系统。

衍生相关工作

围绕chai-veracity数据集，学术界已衍生出一系列具有影响力的工作。经典研究中，有团队基于其多源文本特征提出‘声明级传播一致性模型’，通过对比同一cluster_id下不同original_texts的语义相似度来预测真伪。另一项开创性工作则利用post_count构建时间权重矩阵，开发了‘时序增强的虚假信息分类器’，显著提升了跨域泛化能力。此外，该数据集还推动了零样本谣言检测任务的发展，衍生出结合prompt模板与预训练语言模型的立场感知验证框架。这些工作不仅验证了chai-veracity在细粒度声明验证上的有效性，更将其扩展至多语言谣言关联分析、反讽声明识别等前沿方向，奠定了其作为虚假信息传播研究基石的地位。

数据集最近研究