A3-Bench

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/Pekku/A3-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

A3-Bench是一个用于评估科学推理能力的基准测试数据集，基于双尺度记忆驱动激活（Anchor和Attractor Activation）设计。该数据集包含2,198个科学推理问题，涵盖数学、物理和化学三个主要科学领域。每个问题分为ques（问题）、anchor（知识锚点）和attractor（知识吸引子）三个部分。数据集通过SAPM标注过程和AAUI指标来评估记忆激活率，旨在填补现有基准测试在评估记忆驱动机制方面的空白。

创建时间：

2026-01-12

原始信息汇总

A3-Bench 数据集概述

基本信息

数据集名称：A3-Bench
语言：英语
许可证：MIT
数据规模：1K<n<10K
任务类别：问答
标签：化学、物理、数学、记忆驱动

数据集描述

A3-Bench 是一个旨在通过双尺度记忆驱动激活（基于锚点和吸引子激活）来评估科学推理能力的基准测试。

核心目标

该基准测试旨在解决现有评估主要关注最终答案或逐步连贯性，而忽视了人类推理基础记忆驱动机制的问题。

关键特性

SAPM标注流程：用于2198个科学推理问题的专门标注流程（主题、锚点与吸引子、问题、记忆发展）。
双尺度记忆评估框架：利用锚点和吸引子来衡量记忆激活。
AAUI指标：用于衡量记忆激活率的锚点-吸引子利用指数。

数据结构

数据集包含2198个问题，涵盖三个主要科学领域：

数学
物理
化学

配置与文件

数据集包含三个配置，每个配置下有三个数据分割：

配置名称：math
- ques 分割文件：math/ques.jsonl
- anchor 分割文件：math/anchor.jsonl
- attractor 分割文件：math/attractor.jsonl
配置名称：physics
- ques 分割文件：physics/ques.jsonl
- anchor 分割文件：physics/anchor.jsonl
- attractor 分割文件：physics/attractor.jsonl
配置名称：chemistry
- ques 分割文件：chemistry/ques.jsonl
- anchor 分割文件：chemistry/anchor.jsonl
- attractor 分割文件：chemistry/attractor.jsonl

分割说明

ques：实际的科学推理问题。
anchor：与问题相关的知识锚点。
attractor：用于评估经验记忆激活的知识吸引子。

引用信息

如果使用此基准测试或数据集，请引用以下论文： bibtex @misc{zhang2026a3benchbenchmarkingmemorydrivenscientific, title={$A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation}, author={Jian Zhang and Yu He and Zhiyuan Wang and Zhangqi Wang and Kai He and Fangzhi Xu and Qika Lin and Jun Liu}, year={2026}, eprint={2601.09274}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2601.09274}, }

搜集汇总

数据集介绍

构建方式

在科学推理领域，记忆驱动的知识激活机制对于提升推理的一致性与稳定性具有关键作用。A3-Bench数据集的构建采用了SAPM标注流程，针对数学、物理和化学三大科学领域的2198个推理问题，系统性地标注了主题、锚点与吸引子、问题及记忆发展过程。这一流程确保了每个问题均与特定的知识锚点和吸引子相关联，从而为评估双尺度记忆激活提供了结构化基础。数据以JSONL格式组织，分为问题、锚点和吸引子三个独立分割，支撑了后续对记忆驱动推理的量化分析。

特点

该数据集的核心特点在于其创新的双尺度记忆评估框架，通过锚点和吸引子两类知识结构，模拟人类科学推理中的先验知识激活与经验记忆调用。数据集覆盖数学、物理和化学三大基础科学领域，问题设计兼顾深度与广度，能够全面检验模型在不同学科背景下的记忆驱动能力。此外，引入的锚点-吸引子利用指数为量化记忆激活率提供了标准化度量，弥补了现有基准仅关注最终答案或步骤连贯性的不足，为深入探究推理背后的认知机制提供了独特视角。

使用方法

使用A3-Bench时，研究者可分别加载问题、锚点和吸引子三个分割文件，通过关联对应条目构建完整的记忆激活评估任务。典型应用包括训练或测试模型在给定锚点知识下解答科学问题，并利用吸引子评估其经验记忆的调用效率。该数据集支持跨领域比较分析，用户可针对特定科学学科配置进行实验，或综合多领域数据以考察模型的泛化能力。通过计算锚点-吸引子利用指数，能够客观衡量模型在推理过程中对记忆结构的依赖程度，从而推动更接近人类认知的智能系统发展。

背景与挑战

背景概述

在人工智能与认知科学交叉领域，科学推理能力是衡量模型智能水平的关键维度。传统评估多聚焦于最终答案的准确性或推理步骤的连贯性，却忽视了人类认知中依赖记忆激活与知识复用的内在机制。为填补这一空白，A3-Bench数据集应运而生，由研究团队于2026年提出，其核心研究问题在于如何系统评估模型在数学、物理及化学等科学领域中进行记忆驱动的推理能力。该数据集通过引入锚点与吸引子的双尺度记忆评估框架，旨在深入剖析知识结构在推理过程中的激活模式，为推进可解释性人工智能与类人推理研究提供了重要的实证基础。

当前挑战

A3-Bench所针对的科学推理任务，其挑战在于如何精准量化模型对先验知识的动态激活与整合能力，这超越了传统问答任务对表面一致性的要求。构建过程中的主要挑战体现在专业知识的深度标注上，需在数学、物理和化学三大领域内，系统识别并标注锚点与吸引子这类抽象的记忆结构，确保其既能反映学科内在逻辑，又能支撑对记忆利用率指标的可靠计算。此外，设计一套普适且稳健的评估指标以捕捉双尺度记忆激活的细微差异，亦是数据集构建中面临的核心技术难题。

常用场景

经典使用场景

在科学推理研究领域，A3-Bench数据集为评估记忆驱动机制提供了经典场景。该数据集通过锚点与吸引子的双尺度结构，模拟人类在解决数学、物理和化学问题时激活先验知识的过程。研究者利用其标注的问题、锚点和吸引子数据，能够深入分析模型如何检索和应用相关知识，从而评估推理的一致性与稳定性，而非仅关注最终答案的正确性。

衍生相关工作

基于A3-Bench的框架，衍生了一系列关注记忆增强推理的研究工作。例如，有研究扩展了锚点-吸引子机制至多模态科学问题求解，结合视觉与文本信息进行记忆激活分析。另有工作将AAUI指标与神经符号推理模型结合，以提升模型在长链科学推理中的稳定性，这些进展进一步巩固了记忆驱动范式在人工智能推理领域的理论基础。

数据集最近研究