RiddleBench
收藏arXiv2025-10-29 更新2025-11-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/RiddleBench
下载链接
链接失效反馈官方服务:
资源简介:
RiddleBench是一个包含1737个英语谜题的新基准,旨在评估大型语言模型(LLM)的推理能力。数据集主要针对模型进行多步推理、空间推理和约束满足的能力。RiddleBench的谜题要求模型从基本原则出发进行推理,以解决复杂的推理问题。数据集的创建过程包括内容提取、数据结构化、人工验证等步骤,确保了数据的高质量。RiddleBench旨在解决LLM推理中存在的关键问题,如幻觉级联、自我纠错能力差等,并为开发更稳健可靠的推理系统提供指导。
RiddleBench is a novel benchmark containing 1,737 English riddles, designed to evaluate the reasoning capabilities of large language models (LLMs). The dataset primarily targets models' abilities in multi-step reasoning, spatial reasoning, and constraint satisfaction. The riddles in RiddleBench require models to reason from first principles to solve complex reasoning problems. The creation process of RiddleBench includes steps such as content extraction, data structuring, and manual validation, ensuring high data quality. RiddleBench aims to address key issues in LLM reasoning, such as hallucination cascades and poor self-correction abilities, and provides guidance for developing more robust and reliable reasoning systems.
提供机构:
印度理工学院马德拉斯分校,印度,微软(印度),谷歌,印度理工学院工程科学与技术学院,西布普尔
创建时间:
2025-10-29
搜集汇总
数据集介绍

构建方式
在逻辑推理评估领域,RiddleBench通过系统化流程构建了包含1,737个英文谜题的数据集。该数据集源自由Gemini 2.5 Flash模型进行光学字符识别的印度政府考试模拟试题PDF档案,经过结构化处理提取问题核心要素后,研究团队对每个数据点进行了人工验证,确保转录准确性与逻辑完整性。这种自动化提取与人工校验相结合的方法,保证了数据集在逻辑推理任务上的高质量与可靠性。
使用方法
在实证研究框架下,RiddleBench采用零样本提示方法进行模型评估,设置温度为0.7并分配8,192个令牌的思维预算。基准测试不仅关注最终答案准确率,更通过三个核心研究问题深入剖析推理可靠性:模型间纠错能力验证揭示了幻觉级联现象;自我修正实验暴露了强大的自我确认偏差;推理稳健性测试则通过重排约束条件和插入干扰信息,检验模型逻辑推理的脆弱性。这种多层次评估体系为理解大语言模型推理机制提供了系统化方法论。
背景与挑战
背景概述
随着大型语言模型在自然语言处理领域的迅猛发展,其在传统基准测试上的表现已趋于饱和,但深层推理能力的评估仍存在显著空白。2025年,AI4Bharat研究团队联合印度多所顶尖学术机构推出了RiddleBench基准数据集,该数据集包含1,737道源自印度公务员考试的逻辑谜题,旨在系统评估模型在多重约束条件下的综合推理能力。该基准聚焦于序列推理、空间排列、血缘关系与编码解码四大核心领域,通过严谨的数据采集与人工验证流程,为衡量语言模型的认知整合能力提供了标准化工具。
当前挑战
该数据集致力于解决复合推理任务的评估难题,其核心挑战在于如何准确衡量模型在逻辑演绎、空间感知与约束满足等多维度能力的协同表现。在构建过程中,研究团队面临三大技术瓶颈:首先是从非结构化考试文档中精准提取语义完整的逻辑问题,需克服光学字符识别中的格式噪声与语义歧义;其次需设计人工验证机制以确保推理链条的严密性,这要求标注者具备专业的逻辑分析能力;最后是如何平衡文化背景的普适性,虽然逻辑任务本身具有通用性,但源材料的地域特征可能对跨文化评估产生潜在影响。
常用场景
解决学术问题
RiddleBench有效解决了现有推理基准对综合性认知能力评估不足的学术难题。传统基准如GSM8K和MATH主要关注结构化数学问题,而CommonsenseQA等数据集侧重常识知识检索,均难以全面衡量模型的逻辑推理与空间认知整合能力。该数据集通过精心设计的约束满足类问题,填补了混合推理评估的空白,为研究社区提供了诊断幻觉级联、自我修正偏差等深层推理缺陷的有效工具,推动人工智能向更接近人类认知模式的方向发展。
实际应用
在实际应用层面,RiddleBench为人工智能系统的可靠性验证提供了重要参考。教育科技领域可借鉴其评估方法开发智能辅导系统,通过分析学生在类似谜题中的推理轨迹,精准识别知识薄弱环节。企业级AI产品研发团队可利用该基准测试模型在复杂业务场景下的逻辑一致性,如金融风控中的规则推导或智能客服中的多条件决策。政府部门在选拔类考试命题中,也可参考其题目设计思路,增强对考生综合推理能力的考察效度。
数据集最近研究
最新研究方向
在生成式推理评估领域,RiddleBench作为新兴基准测试工具,正推动大语言模型在复合推理能力方面的前沿探索。该数据集聚焦于逻辑演绎、空间感知与约束满足的交叉研究,通过系统化实验揭示了模型存在的幻觉级联现象与自我修正机制缺陷,为构建可靠推理系统提供了关键诊断依据。当前研究热点集中于跨语言泛化能力验证与抗干扰推理鲁棒性优化,这些发现对人工智能在复杂决策场景中的实际应用具有深远影响。
相关研究论文
- 1通过印度理工学院马德拉斯分校,印度,微软(印度),谷歌,印度理工学院工程科学与技术学院,西布普尔 · 2025年
以上内容由遇见数据集搜集并总结生成



