five

Incomplete Questions with Conditions

收藏
github2025-06-17 更新2025-06-19 收录
下载链接:
https://github.com/frinkleko/LLM-Fail-to-Acquire-Context
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1912个样本,每个样本包括一个不完整的问题、条件本身、答案以及从中派生这些组件的原始完整问题。用于评估大型语言模型在数学问题中请求缺失信息的能力。

This dataset comprises 1,912 samples, each of which includes an incomplete question, the corresponding conditions, the correct answer, and the original complete question from which these components are derived. It is designed to evaluate the ability of large language models (LLMs) to request missing information when solving mathematical problems.
创建时间:
2025-06-12
原始信息汇总

LLM-Fail-to-Acquire-Context 数据集概述

数据集简介

  • 名称: LLM-Fail-to-Acquire-Context
  • 用途: 评估大型语言模型(LLMs)在数学问题中请求缺失信息的能力
  • 核心问题: 研究LLMs在关键上下文缺失时的两种表现:
    1. 直接回答导致性能显著下降
    2. 产生特殊类型的幻觉假设导致完全错误答案

数据集内容

  • 版本: 大型版本(包含1912个样本)
  • 名称: "Incomplete Questions with Conditions" (大型数据集)
  • 存储位置: HuggingFace Dataset
  • 样本结构:
    • 不完整的问题(缺少条件)
    • 条件本身
    • 答案
    • 原始完整问题

数据示例

json { "index": 130, "question": "Given the sets $A={1,2,3,4}$ and $B={x|y=2x,y\in A}$, then $A\cap B=$u3000u3000()

A: ${2}$
B: ${1,2}$
C: ${2,4}$
D: ${1,2,4}$", "new_question": "Given the set $B={x|y=2x,y\in A}$, then $A\cap B=$u3000u3000() A: ${2}$ B: ${1,2}$ C: ${2,4}$ D: ${1,2,4}$", "condition": "$A={1,2,3,4}$", "answer": "B" }

测试提示示例

Given sets b={0,1,2}, then a∩b=(  )

a: {0}

b: {1}

c: {1,2}

d: {0,1,2}. Return answer in oxed{}.

引用信息

bibtex @misc{shen2025llmfail, title={LLM Fail to Acquire Context}, author={Shen, Xinjie}, year={2025}, howpublished={url{https://sunset-jupiter-cf3.notion.site/Failing-to-Acquire-Context-A-Benchmark-for-Evaluating-LLMs-Ability-to-Request-Missing-Information--20fb7e977237802ca126ed554ccb8083}}, note={Notion Blog}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在数学问题求解领域,数据集的构建采用了严谨的学术方法。研究团队从原始完整数学问题中系统性地剥离关键条件,生成1912个不完整问题样本。每个样本包含四个核心要素:原始问题、缺失条件的新问题、被移除的条件以及标准答案。这种构建方式通过精心设计的条件移除策略,有效模拟了现实场景中用户可能无意遗漏关键信息的对话情境。数据集的数学问题涵盖集合运算等基础数学概念,确保评估任务的多样性和代表性。
特点
该数据集具有鲜明的评估导向特征,专门设计用于揭示大语言模型在关键上下文缺失时的行为模式。样本结构呈现标准化格式,包含原始问题与不完整问题的对比,便于分析模型性能差异。数据集特别关注两种典型现象:模型在缺失条件下直接回答的倾向性,以及由此导致的显著性能下降。通过数学问题的精确构造,数据集能够有效触发模型的假设性幻觉,为研究模型在信息不完整场景下的表现提供了可靠基准。
使用方法
研究人员可通过HuggingFace平台便捷获取该数据集,每个样本均以结构化JSON格式呈现。使用时应重点关注模型对不完整问题的响应模式,对比其在完整与不完整上下文中的表现差异。评估时建议采用标准提示模板,观察模型是否主动请求缺失信息或做出不当假设。数据集支持直接输入大语言模型进行测试,通过分析模型输出答案与标准答案的偏差,定量评估模型的信息获取能力。后续研究可基于该基准开发更有效的上下文获取机制。
背景与挑战
背景概述
Incomplete Questions with Conditions数据集由Xinjie Shen等人于2025年创建,旨在评估大型语言模型(LLMs)在数学问题中请求缺失信息的能力。该数据集源于研究者对LLMs处理不完整查询时常见问题的观察,即模型倾向于直接回答而非请求缺失的关键上下文,导致性能显著下降和错误假设。数据集包含1912个数学问题样本,每个样本由不完整问题、缺失条件、正确答案和原始完整问题组成,为研究LLMs的上下文获取能力提供了标准化测试平台。该工作通过Notion博客和HuggingFace平台发布,对提升LLMs的交互可靠性和减少幻觉假设具有重要研究价值。
当前挑战
该数据集主要解决两大核心挑战:在关键上下文缺失时,LLMs直接回答导致性能下降的量化评估问题,以及模型陷入特殊类型幻觉假设的机制分析。构建过程中的挑战体现在数学问题条件的精准剥离与重构,需确保不完整问题在语义上合理且缺失条件确为解题关键。样本设计需平衡数学问题的复杂性与条件缺失的典型性,同时避免引入无关变量干扰评估结果。此外,创建标准化评估指标以区分模型主动询问能力与被动回答倾向,也是数据集构建的技术难点。
常用场景
经典使用场景
在自然语言处理领域,'Incomplete Questions with Conditions'数据集为研究大型语言模型在信息缺失情境下的表现提供了重要基准。该数据集通过精心设计的数学问题及其不完整版本,模拟了真实交互中用户可能无意遗漏关键信息的场景,成为评估模型主动获取上下文能力的关键工具。研究人员利用这一数据集系统分析了模型在面对不完整问题时直接回答而非追问的倾向,为理解模型行为机制提供了量化依据。
解决学术问题
该数据集有效解决了当前LLM研究中的两个核心问题:模型在关键上下文缺失时的性能退化现象,以及其特殊类型的幻觉假设倾向。通过1912个样本的定量分析,研究者能够精确测量模型因信息缺失导致的准确率下降幅度,并深入探究模型自动补全缺失信息的错误机制。这项工作为提升模型交互鲁棒性提供了诊断性工具,填补了该领域系统性评估框架的空白。
衍生相关工作
该数据集已催生多项关于LLM交互行为的研究突破,包括《信息缺失情境下的模型假设分析》等标志性论文。后续研究在此基础上扩展了评估维度,开发出更精细的模型诊断方法。相关成果被应用于构建新一代的交互式问答系统,推动形成了'主动信息获取'这一重要研究方向,对促进可信AI发展产生了深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作