Nazonazo Benchmark

Name: Nazonazo Benchmark
Creator: 日本先进科学技术研究所
Published: 2025-09-18 15:50:04
License: 暂无描述

arXiv2025-09-18 更新2025-09-20 收录

下载链接：

https://nazogaku.com/

下载链接

链接失效反馈

官方服务：

资源简介：

Nazonazo Benchmark数据集由日本儿童谜语构建，旨在测试大型语言模型的基于洞察力的推理能力。该数据集包含120个谜语，每个谜语简短（大多数为一句话），无需专业知识，且易于大规模生成。数据集的创建过程包括从Nazonazo Gakuen网站收集谜语，并对模型进行评估。该数据集的应用领域是评估大型语言模型的洞察力推理能力，旨在解决当前大型语言模型评估危机的问题。

The Nazonazo Benchmark dataset is constructed from Japanese children's riddles, aiming to test the insight-based reasoning capabilities of large language models (LLMs). It comprises 120 riddles, each of which is brief (most are single sentences), requires no professional expertise, and is easy to generate at scale. The dataset's creation process includes collecting riddles from the Nazonazo Gakuen website and conducting model assessments. The primary application of this dataset is to evaluate the insight-based reasoning abilities of large language models, with the intention of resolving the current crisis in large language model evaluation.

提供机构：

日本先进科学技术研究所

创建时间：

2025-09-18

搜集汇总

数据集介绍

构建方式

Nazonazo Benchmark基于日本传统儿童谜语构建，通过精选120个高中和初中难度级别的谜题形成核心测试集。项目团队从公开谜语网站系统采集原始语料，并采用双盲标注流程确保答案变体的规范性与一致性。每个谜题均经过语言学专家审核，确保其符合洞察力推理的核心特征——需通过表征转换而非逐步分析求解。为应对数据泄露风险，该数据集设计了动态盲测集更新机制，支持低成本快速生成替代测试项。

特点

该数据集以短文本谜题为核心特征，平均长度为一句话，无需专业领域知识即可求解。其独特优势在于融合日语文字系统的复杂性（如汉字部首分解、同音异义和假名组合），要求模型突破表面语义进行非线性的表征重构。谜题设计天然抵抗过拟合，因开发者缺乏针对此类传统游戏的专项训练动机。测试结果显示人类表现呈现双峰分布（52.9%平均准确率），而多数模型表现显著低于人类水平，凸显其作为洞察力推理评估工具的有效性。

使用方法

使用该数据集时需采用零样本提示策略，输入日文原题并要求模型直接输出简短答案。评估时重点关注最终答案字符串与标准答案变体的匹配度，允许不同文字表记形式（平假名/片假名/汉字）的等效转换。对于检索增强型模型需单独标注以区分纯推理能力与外部知识辅助效果。建议定期更新盲测集以防止数据污染，并通过思维日志分析追踪候选答案生成与验证过程，特别关注模型产生正确解却未能最终采纳的验证失败案例。

背景与挑战

背景概述

Nazonazo Benchmark由日本北陆先端科学技术大学院大学知识科学研究科与信息科学研究团队于2024年创建，旨在应对大语言模型评估中的基准饱和与污染危机。该数据集基于日本传统儿童谜语（nazonazo），聚焦于洞察式推理能力的测试，其核心研究问题在于衡量模型在非结构化情境中实现表征转换与认知重构的能力。通过低成本、可扩展的设计，该数据集为评估模型的原生推理能力提供了新范式，对自然语言处理领域的评估方法论产生了革新性影响。

当前挑战

该数据集解决的领域挑战在于突破传统基准的饱和限制，针对洞察式推理这一高阶认知任务设计评估标准，要求模型在语言游戏中进行非线性的表征转换。构建过程中的挑战包括：日本语言文化特异性导致的跨语言泛化验证困难，谜语类型学标注体系的缺失对机制分析的制约，以及防止数据泄露需持续更新盲测集的运维复杂度。此外，模型输出中普遍存在的验证失败现象（生成正确候选答案却无法最终确认）揭示了元认知校准这一深层挑战。

常用场景

经典使用场景

在大型语言模型评估领域，Nazonazo Benchmark凭借其源自日本儿童谜语的特性，成为测试洞察式推理能力的经典工具。该数据集通过简洁的单句谜题，要求模型突破表面语义束缚，实现认知重构和表征转换，从而有效评估模型在非单调性、非线性推理任务中的表现。

衍生相关工作

该数据集催生了多项重要研究：其设计理念启发了跨文化谜语基准的构建，如扩展至中文歇后语或英语双关语评估体系；针对发现的验证失败现象，研究者开发了元认知提示技术（Metacognitive Prompting）；此外还推动了AI元认知心理学这一新兴领域的发展，系统研究语言模型中类元认知信号的功能机制。

数据集最近研究