five

FACT-AUDIT|自然语言处理数据集|事实核查数据集

收藏
arXiv2025-02-25 更新2025-02-27 收录
自然语言处理
事实核查
下载链接:
http://arxiv.org/abs/2502.17924v1
下载链接
链接失效反馈
资源简介:
FACT-AUDIT是一个自适应多代理框架,用于动态评估大型语言模型的事实核查能力。该框架利用重要性抽样原则和多代理协作,生成自适应和可扩展的数据集,执行迭代模型中心评估,并根据模型特定响应更新评估。通过结合证明生成和裁决预测,该框架提供了对LLM事实推理能力的全面和演变的审计,以调查其可信度。
提供机构:
香港浸会大学, 国立新加坡大学, 新加坡管理大学, 哈尔滨工业大学, 新加坡设计与科技大学
创建时间:
2025-02-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
FACT-AUDIT 数据集的构建方式采用了自适应多智能体框架,通过重要性采样原则和多智能体协作,生成自适应且可扩展的数据集。该框架首先建立了一个详细的分类体系,对不同的事实核查场景进行分类,并使用工具使用模块验证原型测试数据的质量。然后,对于每个事实核查测试场景,FACT-AUDIT 使用原型测试数据以及迭代探测过程,通过重要性采样生成更多样化和未见过的测试案例。最后,完成所有测试场景的评价后,FACT-AUDIT 根据模型的表现更新测试场景,使审计过程能够自适应地识别 LLM 在事实核查能力方面的新的和关键缺陷。
使用方法
使用 FACT-AUDIT 数据集进行事实核查模型评估时,首先需要初始化事实核查测试场景,并设置一个内存池。然后,进入迭代循环,依次进行原型模拟、事实核查和论证生成、自适应更新三个阶段。在每个阶段,智能体根据当前测试场景和模型表现,生成新的测试案例,并对模型进行评估和更新。通过多次迭代,FACT-AUDIT 能够逐步揭示 LLM 在事实核查任务中的局限性和弱点,并提供有价值的改进建议。
背景与挑战
背景概述
大型语言模型(LLMs)在事实核查研究中取得了显著进展。然而,现有的自动事实核查评估方法依赖于静态数据集和分类指标,无法自动评估LLMs的论据生成能力,也无法揭示LLMs在事实核查中的细微局限性。为了解决这些问题,Lin等人于2025年提出了FACT-AUDIT,这是一个由智能体驱动的框架,能够自适应和动态地评估LLMs的事实核查能力。FACT-AUDIT利用重要性采样原理和多智能体协作,生成自适应和可扩展的数据集,执行以模型为中心的迭代评估,并根据模型特定响应更新评估结果。该框架通过将论据生成与判决预测相结合,提供了LLMs事实推理能力的全面和动态审计,以调查其可信度。大量实验表明,FACT-AUDIT能够有效地区分最先进的LLMs,为模型中心的事实核查分析提供了宝贵的见解。
当前挑战
FACT-AUDIT在事实核查评估中面临的挑战主要包括:1) 现有的自动事实核查评估方法依赖于静态数据集和分类指标,无法自动评估LLMs的论据生成能力和揭示LLMs在事实核查中的细微局限性;2) 人工设计的事实核查数据集存在测试数据泄露和排行榜泛滥的风险,无法及时和自适应地揭示LLMs在理解事实方面的潜在局限性;3) 事实核查评估方法的问题设置往往简化为以准确性为重点的分类范式,这可能无法充分捕捉事实核查模型的其他关键能力,如论据生成。FACT-AUDIT通过动态更新事实核查测试数据和深入评估模型生成的论据,解决了上述挑战,为系统地审计LLMs的事实核查能力提供了一个新的评估框架。
常用场景
经典使用场景
FACT-AUDIT数据集主要用于评估大型语言模型(LLMs)的事实核查能力。它通过动态生成测试数据集,并使用多智能体协作进行迭代模型中心评估,从而能够适应性地揭示LLMs在事实核查中的局限性。该数据集不仅评估LLMs的判断预测,还结合了理由生成,为LLMs的事实推理能力提供了全面而不断发展的审计。
解决学术问题
FACT-AUDIT数据集解决了静态数据集和分类指标在自动事实核查评估中的局限性。传统的评估方法依赖于静态数据集,无法自动评估LLMs的理由生成能力,也无法揭示LLMs在事实核查中的细微局限性。FACT-AUDIT通过动态更新测试数据和深入评估模型生成的理由,为LLMs的事实核查能力提供了更全面和动态的评估,有助于提高LLMs的可信度。
实际应用
FACT-AUDIT数据集在实际应用中可以用于自动事实核查系统,以识别和纠正文本信息中的事实性错误。它可以帮助社交媒体平台、新闻机构和其他组织识别和防止虚假信息的传播。此外,FACT-AUDIT还可以用于LLMs的持续改进,通过揭示模型的局限性,为模型训练提供更有针对性的数据。
数据集最近研究
最新研究方向
FACT-AUDIT框架的提出,标志着事实核查领域对大型语言模型(LLMs)评估方法的革新。该框架采用多智能体协作,动态地评估LLMs的事实核查能力,并通过重要性采样原则和迭代模型中心评估,揭示了LLMs在事实核查中的细微局限。这种自适应和动态的评估方法,为LLMs的事实核查能力提供了一个全面且不断演进的审计,有助于深入了解其可信度。此外,FACT-AUDIT通过整合推理过程和决策过程,不仅评估了LLMs的准确性,还考虑了其推理能力和决策能力,为LLMs的事实核查提供了更为全面的视角。该框架的提出,为LLMs的事实核查研究提供了新的思路,也为LLMs在现实世界中的应用提供了重要的参考。
相关研究论文
  • 1
    FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models香港浸会大学, 国立新加坡大学, 新加坡管理大学, 哈尔滨工业大学, 新加坡设计与科技大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录