five

CHEF|事实核查数据集|中文处理数据集

收藏
arXiv2022-06-06 更新2024-06-21 收录
事实核查
中文处理
下载链接:
https://github.com/THU-BPM/CHEF
下载链接
链接失效反馈
资源简介:
CHEF是清华大学构建的第一个中文证据基础事实核查数据集,包含10000条真实世界声明。数据集涵盖从政治到公共健康的多个领域,并提供从互联网上检索并标注的证据。数据集的创建过程包括数据收集、声明标注、证据检索和数据验证四个阶段。CHEF旨在为自动事实核查系统提供一个挑战性的测试平台,特别是在检索和推理非英语声明方面。
提供机构:
清华大学
创建时间:
2022-06-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
CHEF数据集的构建过程分为四个主要阶段:数据收集、声明标注、证据检索和数据验证。首先,从多个中文事实核查网站和新闻网站中爬取了14,770篇事实核查和新闻文章,确保了数据的多样性和广泛性。随后,通过人工标注的方式,从这些文章中提取出10,000条真实世界的声明,并为其分配了真实性标签。证据检索阶段,通过Google搜索API获取相关文档,并从中手动选择与声明相关的句子作为证据。最后,通过多轮数据验证确保了标注的一致性和准确性。
特点
CHEF数据集的显著特点在于其规模大、领域广泛且证据丰富。该数据集包含了10,000条真实世界的声明,涵盖了政治、公共卫生、科学、文化和社会等多个领域。每条声明都附带了从互联网上检索到的相关证据,确保了数据的真实性和可验证性。此外,CHEF数据集还提供了详细的标注指南,确保了标注过程的一致性和高质量。
使用方法
CHEF数据集可用于训练和评估自动事实核查系统。使用者可以通过提供的声明和证据,构建模型来预测声明的真实性。数据集支持两种主要的系统架构:流水线系统和联合系统。流水线系统首先进行证据检索,然后基于检索到的证据进行真实性预测;联合系统则将证据检索和真实性预测联合训练,以提高模型的整体性能。此外,数据集还提供了多种基线模型和评估指标,方便研究者进行对比和分析。
背景与挑战
背景概述
随着媒体生态系统中错误信息的爆炸性传播,自动化事实核查的需求日益迫切。尽管错误信息跨越了地理和语言的界限,但大多数相关研究集中于英语领域。为了填补这一空白,清华大学、剑桥大学和伊利诺伊大学芝加哥分校的研究团队联合构建了CHEF数据集,这是首个基于中文证据的事实核查数据集,包含10,000条真实世界的声明。该数据集涵盖了从政治到公共健康的多个领域,并提供了从互联网上检索到的标注证据。CHEF数据集的创建旨在为非英语事实核查系统的发展提供一个具有挑战性的测试平台,推动自动化事实核查技术在中文领域的应用。
当前挑战
CHEF数据集的构建面临多重挑战。首先,证据搜集是一个主要难题,因为需要从互联网上检索相关文档并手动选择证据句子,确保其与声明的相关性和充分性。其次,数值推理也是一个挑战,特别是在处理涉及大量数据的声明时,需要进行精确的数值比较和趋势分析。此外,多模态证据的整合也是一个复杂的问题,因为除了文本外,图片、视频等其他形式的证据也可能成为验证声明的关键。最后,数据集的标注一致性也是一个重要挑战,需要通过严格的标注指南和数据验证流程来确保标注质量。
常用场景
经典使用场景
CHEF数据集的经典使用场景主要集中在自动化事实核查领域,尤其是在处理中文语境下的真实世界声明时。该数据集通过提供10,000条来自多个领域的中文声明及其对应的证据,为研究人员开发和评估事实核查系统提供了丰富的资源。研究人员可以利用这些数据训练模型,使其能够自动从互联网上检索相关证据,并基于这些证据对声明的真实性进行预测。
解决学术问题
CHEF数据集解决了当前事实核查领域中非英语数据集稀缺的问题,尤其是中文事实核查数据的缺乏。通过提供大规模、多领域的中文声明及其证据,该数据集为研究人员提供了一个具有挑战性的测试平台,推动了自动化事实核查技术在中文语境下的发展。此外,CHEF还通过引入证据检索作为潜在变量的模型,为联合训练证据检索和真实性预测模型提供了新的研究方向。
衍生相关工作
CHEF数据集的发布催生了一系列相关研究工作,特别是在中文事实核查和证据检索领域。研究人员基于CHEF数据集开发了多种模型,包括联合训练证据检索和真实性预测的模型,以及基于图结构的证据推理模型。此外,CHEF还启发了其他非英语语言事实核查数据集的构建,推动了多语言事实核查技术的发展。这些衍生工作不仅丰富了事实核查领域的研究内容,还为跨语言事实核查系统的开发提供了宝贵的经验。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录