five

MixRea

收藏
arXiv2026-05-20 更新2026-05-21 收录
下载链接:
https://anonymous.4open.science/r/MixRea
下载链接
链接失效反馈
官方服务:
资源简介:
MixRea是由电子科技大学·深圳高等研究院构建的基准数据集,旨在评估大语言模型在显式-隐式推理任务中的表现。该数据集包含2246个多项选择题,涵盖9种推理类型,涉及1554个显式问题和1391个隐式问题,基于673个独特故事语境构建,每个语境平均包含3.34个推理示例。数据集构建以Possible Stories数据集为基础,通过GPT-4o辅助将隐式问题线索融入原始语境,并设计四种选项类型来系统评估模型对显隐信息的整合能力。该数据集主要应用于认知对齐研究领域,旨在揭示大语言模型在显式指令下可能出现的'无意视盲'现象,即忽略语境中微妙但重要的隐式因果线索,从而推动构建更具鲁棒性的多源信息推理模型。
提供机构:
电子科技大学·深圳高等研究院
创建时间:
2026-05-20
搜集汇总
数据集介绍
构建方式
MixRea基准数据集基于Possible Stories数据集构建,该数据集提供了人工精心设计的高质量情景与多个合理选项。在构建过程中,首先筛选同一上下文内具有不同正确答案的问题对,分别作为显性问题与隐性问题。随后,利用GPT-4o辅助,将隐性问题的故事线以最小修改量融入原始上下文,生成富含隐性信息的上下文。在选项构建上,正确答案由显性和隐性问题的正确回答组合而成,并设计了三种类型的分心选项:显性正确但隐性矛盾、显性错误但隐性正确、以及显性正确但包含无关干扰信息。选项顺序经过随机打乱,以避免位置偏差。最终通过多模型交叉验证与人工审查,从问题冲突、答案不一致及正确选项次优性三方面进行质量校验,形成了包含2,246个多重选择题的最终数据集。
特点
MixRea的核心特点在于其显性-隐性推理任务设计,旨在评估大语言模型在显性任务指令下是否表现出类似人类的“无意盲视”现象。数据集涵盖9种推理类型,显性与隐性信息分布经过系统化调控,每个上下文平均包含3.34个推理样例,支持对模型一致性的评估。选项构造策略独特,通过最大化正确与错误选项之间的语义重叠,实现对模型推理能力的严格考验。实验结果表明,即便是顶尖的推理模型Gemini 2.5 Pro也仅能达到67.9%的准确率和42.8%的一致性,揭示了广泛存在的无意盲视现象。错误分析进一步显示,隐性信息忽略率高达9%至21%,表明模型在处理显性信息时倾向于忽视隐性线索,这一发现为理解大语言模型的认知局限性提供了新视角。
使用方法
MixRea的使用遵循显性-隐性推理任务的标准化流程。每个实例包含一个富含隐性信息的故事情境、一个提供显性信息的假设性问题、以及四个候选事件集。模型需选择与显性问题及隐性情境最为契合的事件集,这要求模型不仅解析显性信息,还需识别情境中看似无关但具有因果重要性的线索,并将其整合为连贯的推理链。评估采用准确率与一致性两项指标:准确率衡量正确回答的比例,一致性评估同一上下文中推理结果的连贯性。为缓解无意盲视,论文提出了潜在关系补全提示方法,通过问题生成、问题选择与增强推理三个阶段,引导模型识别并恢复被忽视的潜在因果关联,该方法在多个模型上展现出比思维链与单样本提示更稳定且优越的性能提升。
背景与挑战
背景概述
MixRea基准测试由电子科技大学深圳高等研究院的袁庆才、黄子怡等人于2026年提出,旨在探究大语言模型在显式指令引导下是否表现出类似人类认知中的“非注意盲视”现象。受经典“隐形大猩猩”实验启发,研究团队注意到,尽管大语言模型并非刻意模拟人脑机制,但其基于自注意力架构的训练语料内嵌了人类的注意偏倚模式。这一特征促使研究者提出显式-隐式推理任务,通过构建包含2246道多项选择题的基准测试,覆盖因果、时序、抽象等9种推理类型,系统评估模型能否在聚焦显式信息的同时,捕捉并整合隐含的因果线索。该数据集的核心创新在于揭示了即便性能最优的推理模型(Gemini 2.5 Pro)也仅达到42.8%的一致性,验证了当前大语言模型普遍存在认知盲区,对AI在医疗、法律等高风险决策领域的可靠应用构成重要警示。
当前挑战
MixRea所解决的核心领域问题是大语言模型在多源信息整合中的非注意盲视现象。具体而言,模型在接受显式任务指令时,倾向于过度聚焦于问题表面特征,而忽视上下文中潜藏的、对推理至关重要的因果线索,导致其无法构建连贯的目标导向推理链。这一限制在需要同时处理显式陈述与隐式暗示的复杂情境中尤为突出,超越了传统语境理解或指令遵循基准的评估范畴。在数据集构建过程中,挑战主要源于选项设计的精妙性:通过将显式与隐式问题的答案进行系统组合,构造出语义高度重叠的正确与干扰选项,迫使模型必须在区分细微语义差异的基础上完成推理。此外,为确保数据质量,团队利用多模型交叉验证与人工审核双轨机制,对958个样本进行了精细修正,以消除答案冲突与次优解,最终构建出能够敏锐诊断模型认知盲区的标准化评估工具。
常用场景
经典使用场景
MixRea数据集主要用于评估和测试大语言模型在显式-隐式推理任务中的表现。具体而言,该数据集要求模型在给定故事上下文、假设性问题以及四个候选事件集的情况下,通过整合上下文中的隐式信息与问题中的显式信息,选择最符合任务目标的事件集。这一过程不仅需要模型对显式陈述的信息进行推理,还要求其能够识别并利用上下文中看似无关但具有因果关联的潜在线索,从而构建连贯的推理链。MixRea包含2246道覆盖9种推理类型的多项选择题,系统性地变化显式与隐式信息的分布,为探究模型在复杂推理场景中的认知整合能力提供了标准化的测试平台。
衍生相关工作
MixRea数据集衍生了一系列重要的相关工作,最突出的是研究者基于误差分析提出的Potential Relation Completion Prompting (PRCP)方法。该方法通过三个协作阶段——问题生成、问题筛选和增强推理——引导模型有意识地识别上下文中需要推理的句子,恢复被忽视的潜在因果关联,从而有效缓解非注意盲视现象。实验结果表明,PRCP在各类模型上均展现出比传统思维链和少样本提示更稳定且显著的性能提升。此外,该数据集还催生了对多源信息推理中非注意盲视现象的深度剖析研究,揭示了这一局限性在显式-隐式推理之外的双显式推理等更广泛场景中的普遍存在性。
数据集最近研究
最新研究方向
MixRea基准数据集聚焦于大语言模型在明确指令下对隐含因果线索的忽视现象,即“不注意盲视”。最新研究方向包括:系统评估模型在显式-隐式推理任务中的表现,揭示即使顶尖推理模型如Gemini 2.5 Pro的推理一致性也仅达42.8%;提出潜在关系补全提示策略,通过引导模型恢复被忽略的因果关联以缓解盲视效应;并验证该局限在多种多源信息推理任务中普遍存在。该研究推动了认知对齐型语言模型的发展,对提升高利害决策场景中模型的鲁棒性具有深远意义。
相关研究论文
  • 1
    MixRea: Benchmarking Explicit-Implicit Reasoning in Large Language Models电子科技大学·深圳高等研究院 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作