CLAIMSPECT数据集

Name: CLAIMSPECT数据集
Creator: 伊利诺伊大学厄巴纳-香槟分校计算机科学系
Published: 2025-06-12 22:17:45
License: 暂无描述

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://github.com/pkargupta/claimspect

下载链接

链接失效反馈

官方服务：

资源简介：

CLAIMSPECT数据集是一组关于现实世界中的科学和政治声明的数据集，旨在展示CLAIMSPECT框架在处理复杂声明时的鲁棒性和准确性。该数据集由真实世界中的科学和政治声明及其对应的语料库组成，旨在帮助理解声明的多面性和验证声明的有效性。CLAIMSPECT通过将声明分解为方面和子方面，并从语料库中提取相关片段，来丰富每个方面的内容。此外，该数据集还提供了对声明各个方面不同观点的分析，以及它们各自的出现频率。该数据集的创建是为了帮助解决验证声明真实性的问题，并为相关领域的研究提供数据支持。

The CLAIMSPECT dataset is a curated collection of real-world scientific and political claims, designed to demonstrate the robustness and accuracy of the CLAIMSPECT framework when handling complex claims. Comprising these real-world claims and their corresponding corpora, the dataset is intended to facilitate understanding of the multifaceted nature of claims and the validation of their validity. The CLAIMSPECT framework enriches the content of each aspect by decomposing claims into aspects and sub-aspects, and extracting relevant segments from their associated corpora. Additionally, this dataset provides analyses of diverse perspectives on each aspect of the claims, along with their respective occurrence frequencies. This dataset was developed to help address the challenge of verifying the veracity of claims, and to provide data support for research in relevant fields.

提供机构：

伊利诺伊大学厄巴纳-香槟分校计算机科学系

创建时间：

2025-06-12

原始信息汇总

ClaimSpect数据集概述

数据集背景

数据集为ACL 2025主会议论文《Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims》的官方实现数据。
主要研究 nuanced claims（微妙主张）的层次化分析，突破传统"真/假"二元判断框架。

核心特点

采用检索增强生成框架(ClaimSpect)
支持对科学和政治主张进行多层次解构：
- 将主张分解为可验证的方面和子方面
- 捕捉语料库中不同观点倾向（支持/中立/反对）
- 量化各观点的普遍性

数据构成

包含两类真实世界主张：
- 科学主张（疫苗比较等）
- 政治主张
数据构建流程：
1. 主张生成
2. 文献检索
3. 文献下载
4. 文献分块处理

数据获取

已构建数据分两部分提供：
- 第一部分
- 第二部分

评估体系

提供多维度评估方案：
- 基线评估
- LLM-as-Judge评估
- 检索语料相关性检查
- 人工评估
- 人机对齐评估

引用信息

bibtex @inproceedings{ anonymous2025beyond, title={Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims}, author={Anonymous}, booktitle={Submitted to ACL Rolling Review - February 2025}, year={2025}, url={https://openreview.net/forum?id=6Io5Pmuh19}, note={under review} }

搜集汇总

数据集介绍

构建方式

CLAIMSPECT数据集的构建采用了检索增强的分层分析方法，首先通过大型语言模型（LLM）生成与复杂声明相关的粗粒度方面，随后利用检索增强生成（RAG）技术迭代细化子方面。具体步骤包括：1）基于LLM的粗粒度方面发现；2）通过检索嵌入模型进行方面区分性检索；3）迭代子方面发现；4）分类驱动的视角发现。该方法确保了数据集的层次结构丰富且与语料库紧密对齐。

使用方法

CLAIMSPECT数据集的使用方法主要包括三个步骤：1）输入声明和语料库，通过CLAIMSPECT框架生成层次化的方面结构；2）利用生成的方面结构进行立场检测和视角发现，识别语料库中对各立场的支持程度；3）基于发现的视角和共识，进行声明验证或知识缺口分析。该数据集适用于事实核查、立场检测和复杂声明分析等任务。

背景与挑战

背景概述

CLAIMSPECT数据集由伊利诺伊大学厄巴纳-香槟分校计算机科学系的Priyanka Kargupta、Runchu Tian和Jiawei Han于2025年6月提出，旨在解决科学和政治领域中复杂主张的层次化分析问题。该数据集通过将主张分解为多个方面和子方面，并利用检索增强生成技术，构建了一个层次化的分析框架，以提供更全面和结构化的视角。CLAIMSPECT的提出填补了现有事实核查和立场检测方法在处理多维度主张时的不足，为相关领域的研究提供了新的工具和方法。

当前挑战

CLAIMSPECT数据集面临的挑战主要包括两个方面：1) 领域问题挑战：科学和政治主张通常具有多维度性和复杂性，难以简单地归类为“真”或“假”，需要更细致的层次化分析方法；2) 构建过程挑战：在构建数据集时，需要处理大量文献数据，确保每个主张的各个方面和子方面都能被准确提取和分类，同时还需要解决检索噪声和语义重叠问题，以确保生成的层次结构具有高准确性和可解释性。

常用场景

经典使用场景

CLAIMSPECT数据集在自然语言处理领域主要用于解决复杂声明的多层次分析问题。通过将声明分解为多个方面和子方面，该数据集支持对科学和政治声明进行结构化验证。其经典使用场景包括构建声明层次结构、检索相关语料片段以及发现不同方面的观点分布。这种层次化的分析方法特别适用于需要细致验证的复杂声明，例如疫苗安全性和国际关系等争议性话题。

解决学术问题

CLAIMSPECT数据集解决了传统事实核查方法在处理复杂声明时的局限性。传统方法通常将声明视为单一陈述，而CLAIMSPECT通过层次化分解声明，能够更全面地分析声明的各个方面。该数据集还解决了立场检测中的粒度不足问题，允许对同一声明的不同方面进行独立的立场分析。此外，它提供了一种系统化的方法来发现语料库中的共识和观点分布，填补了现有研究在多层次声明分析上的空白。

实际应用

在实际应用中，CLAIMSPECT数据集可用于构建自动化的事实核查系统，特别是在需要处理复杂科学和政治声明的场景。新闻机构可以利用该数据集开发更精确的声明分析工具，帮助读者理解争议性话题的多方面证据。研究机构可以将其用于系统性文献综述，快速识别特定主题下的研究共识和分歧点。此外，该数据集还可应用于教育领域，帮助学生培养批判性思维能力。

数据集最近研究