CoMis
收藏arXiv2025-04-30 更新2025-05-02 收录
下载链接:
https://github.com/wangbing1416/MD-PCC
下载链接
链接失效反馈官方服务:
资源简介:
CoMis数据集是一个针对常识冲突的虚假信息检测数据集,包含1580个数据条目,涵盖了食品安全等多个领域。该数据集由人工标注员收集,数据来源包括现有的虚假新闻和谣言检测数据集以及外部网站。数据集的应用领域是虚假信息检测,旨在通过模拟人类思考常识冲突的方式来识别虚假信息。
The CoMis dataset is a disinformation detection dataset targeting commonsense conflicts, containing 1580 data entries covering multiple domains such as food safety. This dataset was collected by human annotators, with its data sources including existing false news and rumor detection datasets as well as external websites. Its application domain focuses on disinformation detection, aiming to identify disinformation by simulating human reasoning about commonsense conflicts.
提供机构:
吉林大学计算机科学与技术学院、吉林大学符号计算与知识工程教育部重点实验室、辽宁师范大学计算机科学与人工智能学院
创建时间:
2025-04-30
原始信息汇总
MD-PCC数据集概述
数据集来源
- 数据集来源于论文《Robust Misinformation Detection by Visiting Potential Commonsense Conflict》的源代码仓库。
包含数据集
- Weibo:中文微博数据集
- GossipCop:英文谣言检测数据集
- 自建数据集:位于
./data/ours目录下
数据集获取
- Weibo和GossipCop数据集需从ENDEF, SIGIR 2023下载
- 下载后需放置于
./data目录
数据集用途
- 用于训练和评估misinformation detection(虚假信息检测)模型
支持模型
- bert
- bertemo
- eann
- mdfend
支持数据集类型
- gossip(GossipCop)
- weibo(微博)
- ours(自建数据集)
- politifact
- snopes
搜集汇总
数据集介绍

构建方式
CoMis数据集的构建过程融合了多源数据采集与人工标注的严谨流程。研究团队从既有虚假新闻数据集(如Weibo-16、Weibo-20)和科普类辟谣平台(如Food Rumor、Science Facts)中筛选具有常识冲突特征的样本,通过专业标注人员对文本进行去符号化处理和长度标准化。所有虚假新闻样本均需满足常识冲突验证条件,即通过COMET等常识推理工具可检测到文本陈述与常识知识库的显性矛盾。构建过程中采用双重校验机制,确保样本标签与常识冲突特征的严格对应。
特点
该数据集的核心特征体现在其专注常识冲突的独特定位。所有虚假新闻样本均包含可验证的常识矛盾,如"肉松由棉花制成"等反常识陈述,并通过人工标注确保冲突的明确性。数据覆盖食品安全、健康科学等多领域,中英文样本比例均衡,平均文本长度控制在50词左右。区别于传统虚假新闻数据集,CoMis额外标注了常识三元组(主体-关系-冲突对象)和COMET生成的黄金对象,为模型提供可解释的常识推理依据。其标签分布呈现1.3:1的假新闻与真实新闻比例,反映了现实场景中的不平衡特性。
使用方法
使用CoMis数据集时,建议采用两阶段训练策略。首先利用原始文本训练基础检测模型(如BERT、CED),再通过拼接常识增强表达进行微调。数据集中提供的常识三元组可直接填充至预设模板(如"然而[主体]本应[关系][黄金对象]而非[冲突对象]"),形成增强样本。研究者可结合MD-PCC方法,通过比较提取的三元组与COMET生成对象的差异度计算冲突分数,构建对抗训练样本。该数据集特别适合评估模型在常识推理层面的性能,可通过F1fake等指标重点分析模型对常识性谬误的捕捉能力。
背景与挑战
背景概述
CoMis数据集是由吉林大学计算机科学与技术学院的研究团队于2025年提出的一个面向常识推理的虚假信息检测基准数据集。该数据集构建的核心理念源于心理学研究发现的人类识别虚假信息的认知机制——通过检测文本中潜在的常识冲突来判断信息真实性。研究团队创新性地提出了MD-PCC方法,通过构建常识表达式来显式表征文本中的常识冲突,从而提升检测性能。作为首个专注于常识冲突的虚假信息检测数据集,CoMis收录了1,580条涵盖食品安全、健康科学等多领域的中文样本,其中所有虚假信息样本均包含可验证的常识冲突,为研究人类认知启发的虚假信息检测方法提供了重要实验平台。
当前挑战
在解决虚假信息检测的核心挑战方面,CoMis数据集面临如何准确量化文本中常识冲突程度的难题,这需要精确提取文本中的常识三元组并与真实世界知识进行比对。数据集构建过程中,研究团队需克服三重技术挑战:首先是从非结构化文本中可靠地提取(s,r,o)三元组的语义解析挑战,这涉及处理中文复杂的语法结构和隐喻表达;其次是常识知识对齐的挑战,需要将提取的三元组与ATOMIC20 20和ConceptNet等知识库进行精准匹配;最后是数据标注的质量控制挑战,要求标注者具备跨领域的专业知识以准确识别微妙的常识冲突。此外,数据集的领域覆盖均衡性和样本的语言多样性也是构建过程中需要持续优化的关键问题。
常用场景
经典使用场景
在自然语言处理领域,CoMis数据集被广泛应用于虚假信息检测任务中,特别是在涉及常识冲突的虚假新闻识别场景。该数据集通过构建常识表达来显式地表示潜在常识冲突,为研究者提供了一个独特的实验平台。在典型的应用场景中,研究者可以利用CoMis数据集训练深度学习模型,使其能够识别文本中与常识知识相矛盾的部分,从而提高虚假信息检测的准确率。
实际应用
在实际应用中,CoMis数据集可部署于社交媒体平台的内容审核系统,自动识别含有常识冲突的虚假新闻。例如,在食品安全、健康科普等关键领域,该系统能够快速检测出'棉花制肉松'等违背常识的谣言。此外,该数据集还可用于构建浏览器插件,在用户浏览网页时实时提示潜在的虚假信息,显著提升网络信息环境的可信度。
衍生相关工作
基于CoMis数据集,研究者已衍生出多项重要工作。其中包括开发结合常识推理的预训练语言模型、构建多模态虚假信息检测框架,以及设计基于提示学习的少样本检测方法。这些工作不仅扩展了数据集的应用范围,还推动了常识推理与虚假信息检测的交叉研究,为后续基于大语言模型的检测方法奠定了基础。
以上内容由遇见数据集搜集并总结生成



