five

climate-fever

收藏
arXiv2021-01-03 更新2024-06-21 收录
下载链接:
http://climatefever.ai
下载链接
链接失效反馈
官方服务:
资源简介:
climate-fever是一个公开可用的数据集,专门用于验证与气候变化相关的真实世界声明。该数据集由苏黎世联邦理工学院和Google Research Zurich等机构合作创建,共收集了1535条来自互联网的气候声明。每个声明都通过自然语言理解算法从维基百科中检索出前五个相关证据候选句,并由人工标注者标记为支持、反驳或信息不足。该数据集旨在促进算法改进,以更好地检索气候特定声明的证据支持,解决语言理解挑战,并最终帮助减轻气候变化错误信息的影响。

Climate-FEVER is a publicly available dataset specifically designed for verifying real-world claims related to climate change. This dataset was collaboratively created by institutions including ETH Zurich and Google Research Zurich, and it has collected 1,535 climate claims sourced from the internet. For each claim, the top five relevant evidence candidate sentences were retrieved from Wikipedia using natural language understanding algorithms, and then labeled by human annotators as SUPPORTS, REFUTES, or NOT ENOUGH INFO. This dataset aims to facilitate algorithmic improvements for better retrieval of evidence supporting climate-specific claims, address language understanding challenges, and ultimately help mitigate the impact of climate change misinformation.
提供机构:
苏黎世联邦理工学院
创建时间:
2020-12-02
搜集汇总
数据集介绍
main_image_url
构建方式
在气候变化信息验证领域,气候相关声明的真实性评估面临严峻挑战。Climate-Fever数据集的构建采用了系统化的多阶段流程,首先从互联网广泛搜集了超过3000条气候相关声明,涵盖科学共识与怀疑论观点,确保来源的多样性。随后,依据可验证性标准,邀请气候科学家对声明进行标注与筛选,最终保留了1535条符合要求的声明。针对每条声明,研究团队设计了一套基于自然语言理解的证据检索系统,从英文维基百科全文中自动提取前五条相关证据句子,并通过人工标注为支持、反驳或信息不足三类,形成了总计7675条标注数据对,构建了这一高质量的真实世界气候声明验证数据集。
特点
Climate-Fever数据集的核心特点在于其真实性与复杂性。与人工构造的声明数据集不同,该数据集全部来源于现实网络环境,声明往往具有句法复杂、隐含知识多、涉及领域专深等特征,更贴近实际 misinformation 的形态。数据集在标注设计上引入了“争议”标签,以容纳同时存在支持与反驳证据的声明,这反映了现实辩论中的常见情形。此外,数据构建过程深度融合了领域专家知识,由气候科学家参与声明筛选与证据标注,确保了标注结果的科学可靠性。这些特点使得该数据集成为检验自然语言理解与事实核查模型在复杂、真实场景下性能的宝贵基准。
使用方法
该数据集主要服务于自然语言处理与事实核查领域的研究。研究者可利用其训练和评估端到端的声明验证系统,通常遵循检索-验证的经典框架:首先,针对给定声明,从知识库中检索相关证据;其次,通过自然语言推理模型判断证据与声明之间的语义关系。数据集提供了声明、检索到的证据句子、人工标注的关系标签以及聚合后的声明级标签,支持模型在不同粒度上进行性能评估。此外,其包含的争议性案例为研究复杂推理和证据冲突化解提供了独特资源。通过公开提供,该数据集旨在推动针对气候变化这一特定领域,且能处理真实世界语言复杂性的验证算法的发展。
背景与挑战
背景概述
气候科学领域长期面临虚假信息传播的挑战,尤其在气候变化议题上,误导性言论常混淆公众认知并阻碍政策行动。为应对此问题,苏黎世联邦理工学院、马里兰大学及谷歌研究院等机构的研究团队于2021年联合发布了Climate-Fever数据集。该数据集聚焦于真实世界气候声明的验证,通过收集互联网上的1535条气候相关声明,并基于维基百科证据进行人工标注,构建了7675条声明-证据对。其核心研究目标在于推动自然语言理解技术在气候声明验证中的应用,为自动化事实核查提供基准数据,从而辅助缓解气候变化领域的错误信息影响。
当前挑战
Climate-Fever数据集在解决气候声明验证这一领域问题时,面临多重挑战。首先,真实世界气候声明常具有复杂语义结构,如包含模糊表述、隐含知识或争议性内容,使得自动化证据检索与蕴含关系判定变得极为困难。其次,数据构建过程中,研究团队需从互联网海量信息中筛选出可验证声明,并依赖气候科学家进行精细标注,但标注者间的一致性较低,反映出人类对证据支持度判定的主观性与不确定性。此外,数据集还需处理证据冲突的声明,这类在现实场景中普遍存在的争议案例,进一步增加了模型训练的复杂度。
常用场景
经典使用场景
在气候变化信息验证领域,climate-fever数据集被广泛应用于自然语言处理模型的训练与评估,特别是在事实核查和证据检索任务中。该数据集通过提供真实世界的气候相关声明及其对应的支持、反驳或信息不足的标注证据,为研究者构建端到端的声明验证系统奠定了坚实基础。其经典使用场景包括训练深度学习模型进行语义蕴含预测,以及优化证据检索算法,以应对气候变化领域内复杂且微妙的语言理解挑战。
解决学术问题
climate-fever数据集有效解决了气候变化领域内信息验证的若干核心学术问题,包括如何从大规模知识文档中自动检索相关证据,以及如何准确判断证据与声明之间的逻辑关系。该数据集通过引入真实世界声明,弥补了人工构造数据在复杂性和多样性上的不足,推动了自然语言理解技术在细粒度事实核查方向的发展。其意义在于为跨学科研究提供了标准化评估基准,促进了气候科学与人工智能社区的协同合作,以应对气候变化误信息的传播。
衍生相关工作
基于climate-fever数据集,研究者们衍生了一系列经典工作,主要集中在改进证据检索与声明验证的算法架构上。例如,有研究利用密集段落检索技术优化了从维基百科中提取相关句子的效率;另一些工作则探索了基于Transformer的模型,如ALBERT和BERT,以提升语义蕴含预测的准确性。这些衍生工作不仅推动了事实核查技术的进步,还促进了多任务学习框架在气候特定领域的适配,为后续更广泛的真实世界声明验证研究提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作