CHEF
收藏arXiv2022-06-06 更新2024-06-21 收录
下载链接:
https://github.com/THU-BPM/CHEF
下载链接
链接失效反馈官方服务:
资源简介:
CHEF是清华大学构建的第一个中文证据基础事实核查数据集,包含10000条真实世界声明。数据集涵盖从政治到公共健康的多个领域,并提供从互联网上检索并标注的证据。数据集的创建过程包括数据收集、声明标注、证据检索和数据验证四个阶段。CHEF旨在为自动事实核查系统提供一个挑战性的测试平台,特别是在检索和推理非英语声明方面。
CHEF is the first Chinese evidence-based fact-checking dataset developed by Tsinghua University, which contains 10,000 real-world claims. The dataset covers multiple domains ranging from politics to public health, and provides evidence retrieved and annotated from the Internet. Its construction process includes four stages: data collection, claim annotation, evidence retrieval and data validation. CHEF aims to provide a challenging testbed for automatic fact-checking systems, especially for the retrieval and reasoning of non-English claims.
提供机构:
清华大学
创建时间:
2022-06-06
搜集汇总
数据集介绍

构建方式
CHEF数据集的构建过程分为四个主要阶段:数据收集、声明标注、证据检索和数据验证。首先,从多个中文事实核查网站和新闻网站中爬取了14,770篇事实核查和新闻文章,确保了数据的多样性和广泛性。随后,通过人工标注的方式,从这些文章中提取出10,000条真实世界的声明,并为其分配了真实性标签。证据检索阶段,通过Google搜索API获取相关文档,并从中手动选择与声明相关的句子作为证据。最后,通过多轮数据验证确保了标注的一致性和准确性。
特点
CHEF数据集的显著特点在于其规模大、领域广泛且证据丰富。该数据集包含了10,000条真实世界的声明,涵盖了政治、公共卫生、科学、文化和社会等多个领域。每条声明都附带了从互联网上检索到的相关证据,确保了数据的真实性和可验证性。此外,CHEF数据集还提供了详细的标注指南,确保了标注过程的一致性和高质量。
使用方法
CHEF数据集可用于训练和评估自动事实核查系统。使用者可以通过提供的声明和证据,构建模型来预测声明的真实性。数据集支持两种主要的系统架构:流水线系统和联合系统。流水线系统首先进行证据检索,然后基于检索到的证据进行真实性预测;联合系统则将证据检索和真实性预测联合训练,以提高模型的整体性能。此外,数据集还提供了多种基线模型和评估指标,方便研究者进行对比和分析。
背景与挑战
背景概述
随着媒体生态系统中错误信息的爆炸性传播,自动化事实核查的需求日益迫切。尽管错误信息跨越了地理和语言的界限,但大多数相关研究集中于英语领域。为了填补这一空白,清华大学、剑桥大学和伊利诺伊大学芝加哥分校的研究团队联合构建了CHEF数据集,这是首个基于中文证据的事实核查数据集,包含10,000条真实世界的声明。该数据集涵盖了从政治到公共健康的多个领域,并提供了从互联网上检索到的标注证据。CHEF数据集的创建旨在为非英语事实核查系统的发展提供一个具有挑战性的测试平台,推动自动化事实核查技术在中文领域的应用。
当前挑战
CHEF数据集的构建面临多重挑战。首先,证据搜集是一个主要难题,因为需要从互联网上检索相关文档并手动选择证据句子,确保其与声明的相关性和充分性。其次,数值推理也是一个挑战,特别是在处理涉及大量数据的声明时,需要进行精确的数值比较和趋势分析。此外,多模态证据的整合也是一个复杂的问题,因为除了文本外,图片、视频等其他形式的证据也可能成为验证声明的关键。最后,数据集的标注一致性也是一个重要挑战,需要通过严格的标注指南和数据验证流程来确保标注质量。
常用场景
经典使用场景
CHEF数据集的经典使用场景主要集中在自动化事实核查领域,尤其是在处理中文语境下的真实世界声明时。该数据集通过提供10,000条来自多个领域的中文声明及其对应的证据,为研究人员开发和评估事实核查系统提供了丰富的资源。研究人员可以利用这些数据训练模型,使其能够自动从互联网上检索相关证据,并基于这些证据对声明的真实性进行预测。
解决学术问题
CHEF数据集解决了当前事实核查领域中非英语数据集稀缺的问题,尤其是中文事实核查数据的缺乏。通过提供大规模、多领域的中文声明及其证据,该数据集为研究人员提供了一个具有挑战性的测试平台,推动了自动化事实核查技术在中文语境下的发展。此外,CHEF还通过引入证据检索作为潜在变量的模型,为联合训练证据检索和真实性预测模型提供了新的研究方向。
衍生相关工作
CHEF数据集的发布催生了一系列相关研究工作,特别是在中文事实核查和证据检索领域。研究人员基于CHEF数据集开发了多种模型,包括联合训练证据检索和真实性预测的模型,以及基于图结构的证据推理模型。此外,CHEF还启发了其他非英语语言事实核查数据集的构建,推动了多语言事实核查技术的发展。这些衍生工作不仅丰富了事实核查领域的研究内容,还为跨语言事实核查系统的开发提供了宝贵的经验。
以上内容由遇见数据集搜集并总结生成



