BrainBench
收藏github2026-03-17 更新2026-03-23 收录
下载链接:
https://github.com/ytang928/BrainBench
下载链接
链接失效反馈官方服务:
资源简介:
BrainBench是一个包含100个脑筋急转弯问题的数据集,涵盖20个失败类别,每个类别针对大型语言模型在推理过程中容易陷入的特定陷阱。这些问题对人类来说非常简单,但却能系统地欺骗依赖表面启发式而非真正推理的AI模型。数据集提供英文和中文版本。
BrainBench is a dataset containing 100 brain teaser questions, spanning 20 failure categories, each targeting specific pitfalls that large language models (LLMs) are prone to encountering during their inference procedures. These questions are deceptively simple for humans, yet can systematically deceive AI models that rely on surface-level heuristics instead of authentic reasoning. The dataset is offered in both English and Chinese versions.
创建时间:
2026-03-17
原始信息汇总
BrainBench 数据集概述
数据集简介
BrainBench 是一个包含 100 个脑筋急转弯问题的基准数据集,旨在揭示大型语言模型在常识推理方面存在的缺陷。这些问题对人类而言非常简单,但会系统地欺骗那些依赖表面启发式方法而非真正推理的 AI 模型。
核心目标
暴露大型语言模型的常识推理差距。
数据集规模与构成
- 问题总数:100 个。
- 语言版本:提供英文和中文版本。
- 类别划分:问题涵盖 20 个特定的失败类别(即推理陷阱)。
数据内容与格式
- 数据文件:
data/brainteasers.json:包含 100 个英文问题。data/brainteasers_chinese.json:包含 100 个中文问题。data/brainteaser_categories.json:包含 20 个类别的定义。
- 问题字段:每个问题包含
id、category、question和answer字段。
失败类别与模型表现
- 类别数量:20 个。
- 最难类别:
- 隐含物理约束:平均准确率 40%。
- 错误视角:平均准确率 40%。
- 完整类别列表及平均准确率:
- 隐含物理约束:40%
- 错误视角:40%
- 语义范围陷阱:50%
- 默认假设劫持:52%
- 语用/社交意图:57%
- 答案隐藏在显而易见处:59%
- 否定/例外逻辑:61%
- 损坏/失效设备自引用:61%
- 错误测试条件:63%
- 冗余信息过载:70%
- 框架/锚定陷阱:71%
- 自我挫败行为:73%
- 循环依赖:73%
- 朴素物理错误:73%
- 嵌入错误前提:76%
- 目标-手段不匹配:78%
- 时间不可能性:78%
- 状态/身份追踪:80%
- 数量/计数错觉:82%
- 规模/增长直觉失败:95%
基准测试结果(关键模型)
| 排名 | 模型 | 准确率 | 可靠性 |
|---|---|---|---|
| 1 | Claude Opus 4.6 (thinking) | 80.3% | 74% |
| 2 | Claude Opus 4.6 | 77.3% | 71% |
| 3 | Claude Sonnet 4.6 | 76.7% | 69% |
| 4 | Claude Haiku 4.5 | 74.3% | 58% |
| 5 | GPT-5.4 (thinking) | 74.0% | 64% |
| 6 | GPT-5.4 | 70.7% | 63% |
| 7 | GPT-4o | 39.7% | 27% |
| 8 | GPT-4o Mini | 39.7% | 24% |
使用方式
- 环境配置:提供基于 Conda 和 pip 的安装脚本。
- 运行基准测试:提供 Python 脚本以对单个或多个模型运行测试、检查进度和重新聚合分数。
- 支持模型:默认支持 OpenAI 和 Anthropic 系列模型,并兼容任何 OpenAI 兼容的 API。
项目结构
主要目录包括 data/(数据集)、benchmark/(评估代码)、results/(分析报告和图表)、scripts/(分析与验证脚本)和 paper/(论文)。
引用
如需引用,请使用提供的 BibTeX 条目。
许可证
MIT 许可证。
搜集汇总
数据集介绍

构建方式
在人工智能领域,评估大型语言模型的常识推理能力一直是关键挑战。BrainBench数据集的构建过程体现了系统化的设计理念,研究者精心设计了100道脑筋急转弯问题,这些问题覆盖了20种特定的推理陷阱类别。每个类别都针对模型在推理过程中容易出现的系统性错误,例如隐含物理约束或错误视角。问题的筛选标准在于对人类而言极其简单,却能够有效暴露模型依赖表面启发式而非深层逻辑的缺陷。数据集的构建不仅包括英文版本,还提供了中文翻译,确保了跨语言评估的可行性。
使用方法
使用BrainBench进行基准测试的过程高度自动化且可复现。研究人员通过简单的命令行指令即可启动评估流程,支持对多种主流大型语言模型进行测试,包括OpenAI和Anthropic的系列模型。评估框架允许用户指定运行的模型、问题数量以及重复实验次数,以确保结果的稳定性。系统内置了基于LLM的答案评判模块,能够自动比对模型输出与标准答案。完整的项目结构包含了数据集、基准测试代码、结果分析和可视化脚本,为深入研究模型的常识推理缺陷提供了完整的工具链。
背景与挑战
背景概述
BrainBench数据集于2026年由研究人员Yuzhe Tang提出,旨在系统性地揭示大型语言模型在常识推理方面存在的深层缺陷。该数据集聚焦于人类看似简单、却需要依赖日常经验与逻辑推断的脑筋急转弯问题,涵盖了从物理约束到社会意图等20个具体失败类别。通过构建一个包含100个精心设计问题的基准,BrainBench不仅量化了当前先进模型在常识理解上的表现差距,更推动了人工智能领域对模型推理能力本质的深入探讨,为后续研究提供了关键的评估工具与理论洞见。
当前挑战
BrainBench所针对的核心挑战在于大型语言模型普遍缺乏真正的常识推理能力,往往依赖表面启发式而非深层逻辑理解,导致在涉及隐含物理约束、错误视角等复杂情境时准确率显著下降。在数据集构建过程中,研究者面临如何精准定义并实例化多样化的推理陷阱类别,确保每个问题既能明确指向特定认知缺陷,又保持对人类而言的直观可解性。同时,设计具有足够区分度且避免歧义的评估标准,以及平衡问题的难度与覆盖面,亦是构建过程中需要克服的关键难点。
常用场景
经典使用场景
在自然语言处理领域,BrainBench数据集被广泛用于评估大型语言模型的常识推理能力。该数据集通过精心设计的100道脑筋急转弯问题,覆盖了20种常见的推理陷阱类别,如隐含物理约束和错误视角等。研究者通常利用这一基准测试来系统性地衡量模型在应对人类看似简单、却需要深层逻辑思考的任务时的表现,从而揭示模型在表面启发式与真实推理之间的差距。
解决学术问题
BrainBench数据集主要解决了大型语言模型在常识推理方面存在的系统性缺陷问题。它通过暴露模型在隐含物理约束、错误视角等类别上的低准确率,帮助学术界识别并分析模型依赖表面模式而非深层逻辑的局限性。这一工作推动了对于模型推理机制的理论研究,为改进模型架构和训练策略提供了实证基础,促进了人工智能向更可靠、更人性化的方向发展。
实际应用
在实际应用中,BrainBench数据集被用于优化和测试商业语言模型系统的可靠性。例如,在开发智能助手或客服机器人时,工程师可以借助该数据集的评估结果,识别模型在理解日常场景、处理模糊指令或应对意外情境时的薄弱环节。这有助于提升产品在真实世界中的实用性和安全性,避免因常识缺失而导致的错误决策或用户体验下降。
数据集最近研究
最新研究方向
在人工智能领域,常识推理能力是衡量大语言模型智能水平的核心维度之一。BrainBench数据集通过精心设计的100道脑筋急转弯问题,系统性地揭示了模型在20类常见推理陷阱中的表现缺陷,例如隐含物理约束和错误视角类别,其平均准确率仅为40%,凸显了模型依赖表面启发式而非深层逻辑的局限性。这一基准测试不仅推动了模型鲁棒性评估的前沿研究,还激发了针对推理链优化、思维提示工程以及多模态常识整合的热点探索,为构建更可靠、更类人的通用人工智能提供了关键的诊断工具和理论支撑。
以上内容由遇见数据集搜集并总结生成



