VERIFASTSCORE synthetic datasets

Name: VERIFASTSCORE synthetic datasets
Creator: 马里兰大学, Lambda Labs
Published: 2025-05-23 01:51:25
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/ RishanthRajendhran/VeriFastScore

下载链接

链接失效反馈

官方服务：

资源简介：

VERIFASTSCORE数据集是用于训练和评估VERIFASTSCORE模型的人工合成数据集。该数据集由大约9600个提示-回复对组成，其中每个回复都被分解为可验证的声明，并使用VERISCORE管道根据检索到的证据进行验证。数据集旨在解决长文本事实性评估的效率和实用性问题，通过将声明分解和验证过程整合到一个模型调用中，实现了显著的性能提升。VERIFASTSCORE模型在保持高事实精度和召回率的同时，减少了推理时间，提高了事实性评估的效率和可解释性。该数据集的发布旨在促进未来事实性研究，并支持在大型评估和训练场景中的应用。

The VERIFASTSCORE dataset is a synthetic dataset designed for training and evaluating the VERIFASTSCORE model. It consists of approximately 9,600 prompt-response pairs, where each response is decomposed into verifiable claims and validated using the VERISCORE pipeline against retrieved evidence. This dataset aims to address the efficiency and practicality issues of long-text factual evaluation, and achieves significant performance improvements by integrating the claim decomposition and validation processes into a single model invocation. The VERIFASTSCORE model reduces inference time while maintaining high factual accuracy and recall, thereby enhancing the efficiency and interpretability of factual evaluation. The release of this dataset aims to facilitate future factual research and support applications in large-scale evaluation and training scenarios.

提供机构：

马里兰大学, Lambda Labs

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

VERIFASTSCORE数据集的构建采用了合成数据生成的方法，通过整合VERISCORE流程中的句子级证据与声明级输出，形成用于微调Llama3.1 8B Instruct模型的训练数据。每个训练样本包含待评估的响应文本及对应的证据上下文，后者通过Google搜索获取的网页搜索结果构成。模型需同时完成声明提取与验证任务，输出带有支持或未支持标签的可验证声明列表。该流程避免了传统分步处理的冗余，将证据检索粒度从声明级放宽至句子级，显著提升了数据构建效率。

特点

该数据集的核心特点在于其任务复杂性与高效性的平衡。模型需在平均4K tokens的噪声证据上下文中，同步完成声明解构、可验证性判断及证据验证三项任务，且需解决指代消解与上下文依赖等语义挑战。数据样本覆盖传记、历史、科学等多领域的长文本响应，声明平均数量达16-20条/响应，支持与未支持标签比例接近3:2。此外，数据集通过混合声明级与句子级证据训练策略增强模型鲁棒性，使其在测试时对证据来源差异具备较强适应性。

使用方法

使用该数据集时，需将待评估文本与通过句子级检索获得的证据上下文拼接为单一输入，由模型直接输出带标签的声明列表。典型应用流程包括：1）对响应文本分句并检索证据；2）将文本与证据合并输入VERIFASTSCORE模型；3）解析模型输出的声明及标签计算事实性分数。该设计支持端到端评估，相比传统流水线方法减少约6.6倍耗时。用户可通过调整证据检索策略（如SERPER API结果数量）或分数计算公式（如F1@K）适配不同场景需求。

背景与挑战

背景概述

VERIFASTSCORE synthetic datasets是由马里兰大学和Lambda Labs的研究团队于2025年提出的，旨在解决长文本事实性评估中的效率问题。该数据集基于VERISCORE框架构建，通过合成数据微调Llama3.1 8B模型，实现了原子声明提取与验证的单次模型调用。其核心创新在于将传统多阶段评估流程（声明分解、证据检索、逐项验证）整合为端到端任务，平均处理速度提升6.6倍，在系统级相关性上达到r=0.94。该数据集推动了高效可解释的事实性评估方法在模型对齐和大规模评估中的应用。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决长文本中嵌套声明识别（平均每文本23个声明）、指代消解及噪声证据下的精确验证（平均处理4K标记证据）；在构建层面，存在合成数据与真实场景的泛化差距（句子级证据下准确率下降20%）、证据检索特异性不足（仅17%URL重叠），以及多任务联合建模的复杂度（需同步完成声明去语境化、可验证性判断等子任务）。此外，封闭模型少样本提示基线（GPT-4o）仅达到0.33相关性，凸显任务复杂性。

常用场景

经典使用场景

VERIFASTSCORE synthetic datasets主要用于长文本事实性评估任务，通过合成数据微调模型实现原子化声明的并行提取与验证。该数据集典型应用于对生成式AI输出的长文本（如传记、历史叙述等）进行自动化事实核查，模型需同时处理约4K tokens的检索证据并完成声明分解、可验证性判断及噪声证据下的验证，显著提升了传统分阶段评估流程的效率。

衍生相关工作

该数据集推动了端到端事实性评估模型的系列研究，包括MINICHECK的轻量级分类器、LLM-OASIS的合成基准框架等。其证据检索策略影响了后续工作如FACTCHECK-GPT的多粒度检索设计，而联合训练范式被SAFE等指标改进方案采纳。相关衍生研究进一步优化了核心ference解析与时间敏感型声明的处理能力。

数据集最近研究