CANDYSET
收藏arXiv2025-09-04 更新2025-11-24 收录
下载链接:
https://github.com/SCUNLP/CANDY
下载链接
链接失效反馈官方服务:
资源简介:
CANDYSET是一个大规模的中文数据集,旨在系统地评估大型语言模型(LLMs)在事实核查方面的能力和局限性。该数据集由大约20,000个真实新闻和虚假新闻实例组成,涵盖了多个领域,如政治、文化、科学、健康、社会和灾难。数据集还包含了4,891个手动注释的LLM生成的事实核查解释,以及大约7,000个人类研究样本。CANDYSET数据集通过严格的来源控制和人工注释过程,确保了数据的质量和可靠性。该数据集可用于研究LLMs在事实核查方面的缺陷,并探索LLMs在实际场景中的应用潜力。
CANDYSET is a large-scale Chinese dataset designed to systematically evaluate the capabilities and limitations of large language models (LLMs) in fact-checking. It consists of approximately 20,000 real and fake news instances spanning multiple domains including politics, culture, science, health, society and disasters. The dataset also contains 4,891 manually annotated fact-checking explanations generated by LLMs, as well as around 7,000 human research samples. The CANDYSET dataset ensures data quality and reliability through strict source control and manual annotation processes. This dataset can be used to study the shortcomings of LLMs in fact-checking and explore their application potential in real-world scenarios.
提供机构:
四川大学
创建时间:
2025-09-04
搜集汇总
数据集介绍

构建方式
在中文网络谣言检测研究领域,CANDYSET数据集的构建体现了系统化工程思维。该数据集通过权威辟谣平台(如中国互联网联合辟谣平台)的HTML爬虫,采集了2017年3月至2024年10月期间约2万条多领域新闻实例,涵盖政治、健康、科学等七个知识维度。数据预处理阶段采用人工标注方式将每条声明与黄金证据精准关联,并创新性地按模型知识截止日期进行时间划分,确保污染评估与无污染评估的双轨验证。通过十名计算机专业标注者的双盲标注机制(Fleiss‘ Kappa=0.76),对LLM生成的4891条缺陷解释进行细粒度分类,构建起包含原始数据、标注解释与人机交互记录的三层架构。
特点
作为专门针对中文虚假信息检测的基准数据集,CANDYSET展现出鲜明的多维特征。其时空跨度覆盖八年动态演变,包含10497条真实新闻与9938条虚假信息,平均声明长度30.6个词符,证据长度63.5个词符。领域分布上突出知识密集型(政治/文化/科学/健康)与时敏型(社会/灾难)的平衡配置,其中健康领域样本量达6789条最具代表性。独特价值在于构建了缺陷解释分类体系,将LLM生成错误划分为忠实性幻觉、事实性幻觉与推理不足三大维度七个子类,例如事实捏造错误占比达34.8%,为模型缺陷诊断提供解剖学视角。
使用方法
该数据集支持渐进式三层评估框架:事实核查结论任务通过零样本/少样本结合思维链提示,衡量模型区分信息真伪的准确率与F1值;解释生成任务要求模型输出五个独立事实验证陈述,通过预定义分类学分析逻辑矛盾与事实偏差;人机协同任务设计四组对照实验(独立判断/网络辅助/LLM辅助/增强检索),跨教育背景评估辅助效能。实践应用时需注意按模型知识截止日期划分测试集,针对时敏型领域采用动态评估策略,并可通过声明重构技术(如疑问句转换)降低事实捏造风险。
背景与挑战
背景概述
CANDYSET数据集由四川大学与新加坡国立大学的研究团队于2024年联合创建,旨在系统评估大语言模型在中文不实信息核查中的能力与局限。该数据集收录了约2万条来自权威辟谣平台的多领域新闻实例,涵盖政治、健康、社会等七大类别,并配备了人工标注的核查证据与模型生成解释。作为首个专注于中文不实信息深度分析的基准数据集,CANDYSET通过构建无污染评估框架与细粒度错误分类体系,为揭示大语言模型在动态信息环境中的认知缺陷提供了关键研究基础。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,大语言模型对时间敏感型与知识密集型不实信息的识别准确率显著不足,尤其在无污染评估中平均性能下降6.9%,暴露出模型对动态演变的实时信息适应力薄弱;在构建过程中,需克服多源异构数据的证据对齐难题,通过双重人工校验与分类学体系设计,最终在4891条模型解释标注中达到0.76的弗莱斯Kappa一致性系数,但文化特定场景的语义理解与高风险内容判别仍是持续优化的核心难点。
常用场景
经典使用场景
在中文虚假信息检测领域,CANDYSET数据集作为首个系统性评估大语言模型事实核查能力的基准工具,其经典应用场景集中于测试模型在无污染评估环境下的表现。该数据集通过精心构建的时序划分机制,模拟真实世界中信息动态演变的挑战,要求模型基于未见过的时效性内容进行判断,有效揭示了LLMs在处理突发社会事件和灾难报道时的知识滞后性。
解决学术问题
该数据集通过构建细粒度错误分类体系,系统揭示了LLMs在事实核查任务中的核心缺陷——事实性幻觉与逻辑矛盾。其提供的4891条人工标注解释缺陷样本,为破解模型过度自信、时序认知薄弱等关键问题提供了实证基础,推动了可信人工智能在中文语境下的可解释性研究,为构建具有事实一致性的大型语言模型指明了优化方向。
衍生相关工作
基于该数据集构建的评估范式已催生多项创新研究,包括时序感知的提示工程框架、多模态证据融合检测方法等。其提出的七类解释缺陷分类法被后续工作扩展应用于跨语言事实核查基准构建,而人机协作实验设计则启发了面向教育场景的智能素养提升工具开发,形成了从基础评估到应用创新的完整研究链条。
以上内容由遇见数据集搜集并总结生成



