five

UAQFact

收藏
arXiv2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/cytan17726/UAQ_Fact
下载链接
链接失效反馈
官方服务:
资源简介:
UAQFact 是一个用于评估大型语言模型(LLMs)在处理无法回答的问题(UAQ)时利用事实知识能力的数据集。它是一个包含辅助事实知识的中英文双语数据集,由知识图谱创建。该数据集包含 6,985 个 UAQ 和相同数量的可回答问题(ABQ),总计 13,970 个问题。此外,还构建了 8,686 个与 UAQ 相关的知识问题和 13,970 个推理线索作为外部知识,以支持深入评估。UAQFact 是现有数据集中最大的无法回答的问题数据集,并且是第一个具有辅助事实知识的数据集,这使得对 LLMs 的深入评估成为可能。UAQFact 的创建旨在解决 LLMs 在面对 UAQ 时可能提供误导性回答的问题。

UAQFact is a dataset developed to evaluate the ability of large language models (LLMs) to leverage factual knowledge when encountering unanswerable questions (UAQ). It is a bilingual (Chinese and English) dataset with auxiliary factual knowledge, constructed from knowledge graphs. The dataset contains 6,985 UAQs and an equal number of answerable questions (ABQs), totaling 13,970 questions. Additionally, 8,686 knowledge questions related to UAQs and 13,970 reasoning clues have been constructed as external knowledge to support in-depth evaluations. UAQFact is the largest unanswerable question dataset among existing datasets, and it is also the first dataset equipped with auxiliary factual knowledge, which enables in-depth assessments of LLMs. UAQFact was created to address the problem that LLMs may generate misleading responses when faced with UAQs.
提供机构:
苏州大学计算机科学与技术学院, OPPO人工智能中心
创建时间:
2025-05-29
原始信息汇总

UAQFact数据集概述

基本信息

  • 论文标题: UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions
  • 论文状态: 已收录于ACL 2025 Findings
  • 论文链接: arXiv预印本
  • 许可证: Apache-2.0

数据集内容

  • 数据版本:
    • 1.0: 论文评估使用的原始格式
    • 2.0: 合并不同问题类型后的格式
  • 核心评估指标:
    • NEC_refuse: 拒绝率(Refusal Rate)
    • EM_hit: 准确率(Accuracy)
    • KPR: 知识通过率(Knowledge Pass Rate)

技术规格

  • 依赖环境:
    • lm-evaluation-harness 0.4.3
    • PyTorch 2.3.1
    • Transformers 4.46.3
    • NumPy 2.1.3
  • 硬件要求: Tesla V100-SXM2-32GB GPU

评估方法

  • 评估脚本: eval_example_llama.sh (包含Meta-Llama-3-8B-Instruct评估示例)
  • 结果解析工具: parse_task2_res.py (用于计算Task 2的KPR指标)
  • 评估框架: 基于EleutherAI/lm-evaluation-harness v0.4.3定制

引用格式

bibtex @misc{tan2025uaqfact, title={UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions}, author={Chuanyuan Tan and Wenbiao Shao and Hao Xiong and Tong Zhu and Zhenhua Liu and Kai Shi and Wenliang Chen}, year={2025}, eprint={2505.23461}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.23461}, }

搜集汇总
数据集介绍
main_image_url
构建方式
UAQFact数据集的构建过程基于知识图谱(Wikidata),通过精心设计的步骤生成不可回答问题(UAQ)和可回答问题(ABQ)。首先,从Wikidata中采样事实三元组作为知识基础,随后针对不同问题类型(Inter、Time、Dilemma)设计问题模板,并填充实体生成双语问题。每个问题均附带相关事实知识,以支持对大型语言模型(LLMs)在处理UAQ时利用内部和外部知识能力的深度评估。
特点
UAQFact作为当前最大的不可回答问题数据集,包含13,970个双语(英/中)问题,其中6,985个为UAQ,其余为ABQ。其独特之处在于为每个问题提供辅助事实知识,支持三项评估任务:基础分类任务及两项新任务(评估LLMs利用内部和外部知识的能力)。数据集覆盖多种问题类型,确保全面评估模型性能。
使用方法
UAQFact支持三种评估模式:1)直接区分UAQ与ABQ的基础任务;2)通过设计多选题测试LLMs内部知识存储与利用效率的任务;3)提供包含事实知识的思维链(CoT)作为外部知识,评估LLMs的推理能力。研究者可通过分析拒绝率(R∆)、知识通过率(KPR)等指标,量化模型在知识感知情境下的表现。
背景与挑战
背景概述
UAQFact数据集由苏州大学的研究团队于2025年5月提出,旨在评估大型语言模型(LLMs)在处理不可回答问题(UAQ)时对事实知识的利用能力。该数据集基于知识图谱构建,包含英语和中文双语种问题,每个问题均附带相关事实知识支持。作为当前最大的不可回答问题数据集,UAQFact通过定义三项评估任务(基础分类任务及两个新增的知识利用任务),填补了现有数据集缺乏事实知识支持的空白,为深入评估LLMs在复杂场景下的知识应用能力提供了标准化基准。
当前挑战
UAQFact针对两大核心挑战:领域问题层面,现有数据集无法评估LLMs利用内部/外部事实知识处理UAQ的能力,且仅支持英语;构建过程层面,需解决从知识图谱采样事实三元组时的语义一致性验证、双语模板生成的准确性控制,以及确保自动生成问题与人工修订间的质量平衡。实验表明,即使具备相关知识,LLMs在UAQ识别准确率(最佳R∆仅63.26/38.40)和知识利用率(KRR最高68.69)方面仍存在显著不足,且跨语言性能差异明显。
常用场景
经典使用场景
UAQFact数据集在评估大型语言模型(LLMs)处理无法回答问题(UAQ)的能力方面具有经典应用场景。该数据集通过提供双语(英语和中文)的无法回答问题及其相关事实知识,支持研究者深入分析LLMs在识别和拒绝无事实依据问题时的表现。特别是在多语言环境下,UAQFact能够揭示模型在处理不同语言和文化背景的UAQ时的差异性表现。
衍生相关工作
UAQFact的推出催生了一系列相关研究,特别是在LLMs知识利用和UAQ处理领域。例如,基于该数据集的研究可能探索如何通过增强模型的知识检索能力来提升UAQ识别准确率,或开发新的评估指标(如知识感知拒绝率)以更精确地衡量模型表现。此外,UAQFact的双语特性也激发了多语言模型评估的新方向。
数据集最近研究
最新研究方向
近年来,UAQFact数据集在自然语言处理领域引起了广泛关注,特别是在评估大型语言模型(LLMs)处理不可回答问题(UAQ)的能力方面。该数据集通过提供双语(英语和中文)的不可回答问题及其相关事实知识,为研究者提供了一个全面评估模型性能的平台。研究热点主要集中在如何利用内部和外部事实知识来提升模型对UAQ的识别和拒绝能力。前沿研究方向包括模型内部知识的激活与利用、外部知识的有效整合以及跨语言性能的优化。UAQFact的出现不仅填补了现有数据集的空白,还为未来在知识增强和模型鲁棒性方面的研究提供了重要基础。
相关研究论文
  • 1
    UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions苏州大学计算机科学与技术学院, OPPO人工智能中心 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作