history-traversal-benchmark

Hugging Face2026-05-11 更新2026-05-12 收录

下载链接：

https://huggingface.co/datasets/usermma/history-traversal-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集服务于确定性分层遍历模型，这是一个专为确定性历史遍历和后向导航设计的导航模型。其核心目标是提供一个替代传统后退/前进堆栈的系统，在该系统中，所有输入被永久保存，导航光标在一个完全持久化的序列中移动，从而确保即使在从历史记录中间进行分支时，遍历行为也能保持一致性和可预测性。主要数据集文件navigation_dataset.txt经过了字节级的、彻底的人工手动审查和验证，被确立为100%正确的基准真值数据，用于模型训练和评估。数据以纯文本格式组织，模拟了一个基于标准输入/输出的交互环境：程序从标准输入逐行读取指令，任何非连字符（-）的输入行代表访问一个新路径或节点，而连字符（-）则指示光标沿着已保存的、扁平化的历史遍历序列向前或向后移动。每次输入后，程序在标准输出中仅打印当前的路径位置，格式简洁，无额外文本。该数据集具有确定性、状态保持、分支历史保留、方向保持和完全历史持久化等特性。它特别适用于评估AI代码生成能力、算法实现正确性、序列推理技能，以及进行自动化测试和基准测试，尤其是在需要处理复杂状态化导航逻辑的场景中。

This dataset serves the Deterministic Hierarchical Traversal Model, a navigation model specifically designed for deterministic history traversal and backward navigation. Its core objective is to provide an alternative to traditional back/forward stacks, where all inputs are permanently saved, and the navigation cursor moves within a fully persistent sequence, ensuring consistent and predictable traversal behavior even when branching from the middle of the history. The main dataset file navigation_dataset.txt has undergone byte-level, thorough manual review and validation, established as 100% correct ground truth data for model training and evaluation. The data is organized in plain text format, simulating an interactive environment based on standard input/output: the program reads instructions line by line from standard input, where any non-hyphen (-) input line represents accessing a new path or node, while a hyphen (-) indicates the cursor moving forward or backward along the saved, flattened history traversal sequence. After each input, the program prints only the current path position in standard output, in a concise format without additional text. The dataset features determinism, state preservation, branch history retention, direction preservation, and complete history persistence. It is particularly suitable for evaluating AI code generation capabilities, algorithm implementation correctness, sequence reasoning skills, as well as for automated testing and benchmarking, especially in scenarios requiring handling complex stateful navigation logic.

创建时间：

2026-05-08

原始信息汇总

数据集概述：Deterministic Hierarchical Traversal Model

基本信息

数据集名称: Deterministic Hierarchical Traversal Model
数据集地址: https://huggingface.co/datasets/usermma/history-traversal-benchmark
许可证: MIT
语言: 英语
标签: code, navigation, deterministic, back-navigation, persistent-history, stateful-traversal, branch-preserving, algorithm-benchmark, coding-benchmark, sequence-reasoning, reproducible, dataset, testing, input-output, cursor-tracking, reference-implementation

核心概念

该数据集定义了一个确定性历史遍历与回退导航模型，核心思想是将导航视为在持久化遍历路径中的移动。与传统的后退/前进栈不同，该模型将所有输入永久保存，并在一个完全持久化的序列中移动导航游标。

输入规则

程序从stdin逐行读取输入
任何不是-的输入被视为新路径/页面/节点，按下回车后立即打印当前位置
输入-符号表示沿历史序列移动游标，方向在边界处自动反弹，每次输入后打印当前位置

输出规则

每次回车后仅打印当前路径
无提示、标签或额外文本

数据集验证

navigation_dataset.txt 文件是完全人工验证的（100%正确），由创建者逐字节手动编写和审阅
其他文件通过自动化测试进行验证，而非逐行人工检查
仅 navigation_dataset.txt 被视为完全人工验证的ground truth

关键特性

确定性: 输出可完全复现
有状态遍历: 维护导航状态
分支保持历史: 从中间分支时不销毁历史记录
方向保持遍历: 自动保留遍历方向
完全持久化输入历史: 所有输入永久保存

适用场景

AI代码生成基准测试
算法评估与推理基准测试
有状态导航测试
序列推理任务评估
输入输出测试
算法合成评估

参考实现

数据集中包含C语言参考实现，也可用C++、Python、JavaScript等其他语言实现。

搜集汇总

数据集介绍

构建方式

该数据集以确定性层级遍历模型为核心，通过模拟持久化历史记录中的光标移动来构建。构建过程中，所有输入均被永久存储，形成一条扁平的遍历序列，而非传统的后退/前进栈结构。数据集的核心文件'navigation_dataset.txt'由作者逐字节人工审查，确保100%正确性，而其他文件则通过自动化测试验证。数据集以标准输入输出方式定义交互规则：任意非'-'的输入被视为新路径并立即输出当前位置，而'-'符号则沿历史序列移动光标，方向在边界自动反弹并输出当前位置。

特点

该数据集具有独特的确定性、状态依赖性、分支保持和历史持久性特点。它能够处理在历史中间分叉的场景，例如浏览序列'1→2→3→4'后后退并打开新路径'5'，系统不会破坏历史而是在遍历序列中智能插入新路径形成模式化往返，从而保持遍历的方向性和连续性。数据集适用于AI基准测试、自动化评估和算法综合评估，特别考验模型对状态化导航的理解能力。

使用方法

使用时，程序逐行读取标准输入，每次输入后立即输出当前路径作为结果。对于新路径输入（非'-'），输出即为该路径；对于'-'输入，输出为沿历史序列移动后的当前位置。该数据集特别适合用于代码生成基准测试，要求模型实现的状态化遍历算法能正确处理分叉后的方向保持。参考实现提供C语言版本，也可扩展至C++、Python、JavaScript等语言。评估时需注意，仅'navigation_dataset.txt'被视为完全可靠的人工验证基准，其余文件需谨慎使用。

背景与挑战

背景概述

在序列推理与状态化导航领域，传统后退/前进栈机制在处理分支历史时往往导致状态不一致或历史丢失。为解决这一瓶颈，历史遍历基准（History Traversal Benchmark）于近期由用户mmma在HuggingFace平台上创建，旨在探索一种完全持久化历史记录的确定性层级遍历模型。核心研究问题在于如何构建一个能够保留所有输入、支持分支且保持方向连续性的遍历系统，避免传统方法在中间节点跳转时破坏前进历史。该数据集通过人工逐字节校验的navigation_dataset.txt文件提供高质量的基准，对AI代码生成、算法合成评估及状态化导航测试具有重要影响力，推动了序列推理基准测试的严谨性与可复现性。

当前挑战

该数据集所解决的领域问题在于克服传统导航算法在历史分支后无法保持遍历一致性的缺陷，具体挑战包括：1）设计一种无需栈结构、基于扁平化遍历序列的算法，以实现在任何位置分支时自动保留历史路径与方向；2）确保输出仅包含当前路径，消除任何额外提示或标签，以适配AI基准测试的自动评估需求。在构建过程中，最大的挑战源自测试数据集本身的潜在错误——开发者曾因数据集部分条目存在偏差而导致AI模型遵循错误路径，这揭示了验证测试数据正确性比调试模型代码更为关键，强调了高质量人工审核与系统性验证在基准创建中的不可或缺性。

常用场景

经典使用场景

在生成式人工智能与算法推理的交汇领域，history-traversal-benchmark数据集被广泛用于评测大语言模型在层次化历史导航任务中的表现。该数据集通过模拟一种完全持久的输入序列遍历机制，要求模型理解并复现具备方向保持与分支保留特性的导航路径。经典的评测场景聚焦于模型能否在给定一系列‘-’指令后，正确地在历史节点之间往复移动，尤其是在中间节点产生分支时仍能保持遍历的连续性与可预测性。这一过程超越了传统的前进/后退栈概念，转而评估模型对扁平化遍历序列的深层逻辑推理能力，因而成为衡量代码生成与序列推理算法质量的重要基准。

衍生相关工作

围绕history-traversal-benchmark数据集，学术界已衍生出一系列富有影响力的相关工作。其中最具代表性的包括基于该数据集的算法综合评测基准，研究者们将其作为核心测试用例，开发出能够自动评估大语言模型在状态化遍历任务中生成代码正确性的评估工具。此外，该数据集的持续方向保持与分支保留特性，催生了对神经网络记忆机制的深入探讨，推动了如‘持久化序列记忆网络’等新型架构的提出。值得注意的是，该数据集在开发过程中揭示的教训——即测试数据本身可能存在的错误会导致对AI模型性能的误判——亦激发了关于AI评估中数据校验重要性的方法论研究，形成了批判性审视基准数据集质量的学术共识。

数据集最近研究