FACT-AUDIT|自然语言处理数据集|事实核查数据集

arXiv2025-02-25 更新2025-02-27 收录

自然语言处理

事实核查

下载链接：

http://arxiv.org/abs/2502.17924v1

下载链接

链接失效反馈

资源简介：

FACT-AUDIT是一个自适应多代理框架，用于动态评估大型语言模型的事实核查能力。该框架利用重要性抽样原则和多代理协作，生成自适应和可扩展的数据集，执行迭代模型中心评估，并根据模型特定响应更新评估。通过结合证明生成和裁决预测，该框架提供了对LLM事实推理能力的全面和演变的审计，以调查其可信度。

提供机构：

香港浸会大学, 国立新加坡大学, 新加坡管理大学, 哈尔滨工业大学, 新加坡设计与科技大学

创建时间：

2025-02-25

AI搜集汇总

数据集介绍

构建方式

FACT-AUDIT 数据集的构建方式采用了自适应多智能体框架，通过重要性采样原则和多智能体协作，生成自适应且可扩展的数据集。该框架首先建立了一个详细的分类体系，对不同的事实核查场景进行分类，并使用工具使用模块验证原型测试数据的质量。然后，对于每个事实核查测试场景，FACT-AUDIT 使用原型测试数据以及迭代探测过程，通过重要性采样生成更多样化和未见过的测试案例。最后，完成所有测试场景的评价后，FACT-AUDIT 根据模型的表现更新测试场景，使审计过程能够自适应地识别 LLM 在事实核查能力方面的新的和关键缺陷。

使用方法

使用 FACT-AUDIT 数据集进行事实核查模型评估时，首先需要初始化事实核查测试场景，并设置一个内存池。然后，进入迭代循环，依次进行原型模拟、事实核查和论证生成、自适应更新三个阶段。在每个阶段，智能体根据当前测试场景和模型表现，生成新的测试案例，并对模型进行评估和更新。通过多次迭代，FACT-AUDIT 能够逐步揭示 LLM 在事实核查任务中的局限性和弱点，并提供有价值的改进建议。

背景与挑战

背景概述

大型语言模型（LLMs）在事实核查研究中取得了显著进展。然而，现有的自动事实核查评估方法依赖于静态数据集和分类指标，无法自动评估LLMs的论据生成能力，也无法揭示LLMs在事实核查中的细微局限性。为了解决这些问题，Lin等人于2025年提出了FACT-AUDIT，这是一个由智能体驱动的框架，能够自适应和动态地评估LLMs的事实核查能力。FACT-AUDIT利用重要性采样原理和多智能体协作，生成自适应和可扩展的数据集，执行以模型为中心的迭代评估，并根据模型特定响应更新评估结果。该框架通过将论据生成与判决预测相结合，提供了LLMs事实推理能力的全面和动态审计，以调查其可信度。大量实验表明，FACT-AUDIT能够有效地区分最先进的LLMs，为模型中心的事实核查分析提供了宝贵的见解。

当前挑战

FACT-AUDIT在事实核查评估中面临的挑战主要包括：1) 现有的自动事实核查评估方法依赖于静态数据集和分类指标，无法自动评估LLMs的论据生成能力和揭示LLMs在事实核查中的细微局限性；2) 人工设计的事实核查数据集存在测试数据泄露和排行榜泛滥的风险，无法及时和自适应地揭示LLMs在理解事实方面的潜在局限性；3) 事实核查评估方法的问题设置往往简化为以准确性为重点的分类范式，这可能无法充分捕捉事实核查模型的其他关键能力，如论据生成。FACT-AUDIT通过动态更新事实核查测试数据和深入评估模型生成的论据，解决了上述挑战，为系统地审计LLMs的事实核查能力提供了一个新的评估框架。

常用场景

经典使用场景

FACT-AUDIT数据集主要用于评估大型语言模型（LLMs）的事实核查能力。它通过动态生成测试数据集，并使用多智能体协作进行迭代模型中心评估，从而能够适应性地揭示LLMs在事实核查中的局限性。该数据集不仅评估LLMs的判断预测，还结合了理由生成，为LLMs的事实推理能力提供了全面而不断发展的审计。

解决学术问题

FACT-AUDIT数据集解决了静态数据集和分类指标在自动事实核查评估中的局限性。传统的评估方法依赖于静态数据集，无法自动评估LLMs的理由生成能力，也无法揭示LLMs在事实核查中的细微局限性。FACT-AUDIT通过动态更新测试数据和深入评估模型生成的理由，为LLMs的事实核查能力提供了更全面和动态的评估，有助于提高LLMs的可信度。

实际应用

FACT-AUDIT数据集在实际应用中可以用于自动事实核查系统，以识别和纠正文本信息中的事实性错误。它可以帮助社交媒体平台、新闻机构和其他组织识别和防止虚假信息的传播。此外，FACT-AUDIT还可以用于LLMs的持续改进，通过揭示模型的局限性，为模型训练提供更有针对性的数据。

数据集最近研究