omega-tensor

Hugging Face2026-04-12 更新2026-04-13 收录

下载链接：

https://huggingface.co/datasets/phanerozoic/omega-tensor

下载链接

链接失效反馈

官方服务：

资源简介：

Omega Tensor数据集提供了38,416个指令集的精确停机分数数据。该数据集通过穷举法枚举了所有长度为8的程序（共1,679,616个），针对一个双寄存器、8位、带JNZ-to-zero控制流的有界机器上的所有可能指令集进行了全面分析。每个数据行代表一个由四个操作码分配（操作码1-4）定义的有序指令集架构（ISA），其中操作码0始终为INC，操作码5始终为JNZ。数据集包含20个特征字段，包括操作ID和名称、精确停机计数、停机比例（omega）、结构标志（如是否包含特定操作）、对合操作计数、寄存器耦合类型、非停机程序的平均和最大周期长度、输出分布的香农熵以及可达输出数量等。数据集经过FPGA硅测量和CPU交叉验证，确保所有停机计数均为精确值而非估计值。该数据集适用于研究停机问题、可计算性、算法信息理论等领域。

创建时间：

2026-04-11

搜集汇总

数据集介绍

构建方式

在计算理论与算法信息论的交叉领域，Omega Tensor数据集通过穷举枚举方法系统构建。该数据集覆盖了38,416种不同的指令集架构，每种架构均在一个双寄存器、8位、具有JNZ到零控制流的有限机器上，对长度为8的所有1,679,616个程序进行了完整执行。计算过程采用Numba-JIT编译的Python解释器，以每指令集0.26秒的速度精确模拟，确保每个停机计数均为确切值，未采用任何抽样或近似手段。

特点

该数据集的核心特征在于其精确性与全面性，提供了从0.290710到0.816916范围内的确切停机分数，均值约为0.612418。每一行数据不仅包含操作码标识与可读名称，还涵盖了结构标志、寄存器耦合类型、非停机程序的平均与最大周期长度，以及输出分布的香农熵和可达输出数量等丰富统计信息。这些特征为研究停机问题与计算复杂性提供了高保真的实证基础。

使用方法

在应用层面，Omega Tensor数据集适用于计算理论、可计算性及算法信息论的相关研究。用户可通过分析不同指令集的停机分数、周期行为与输出熵，探索有限机器模型下的计算边界。数据集已通过FPGA硅测量与CPU交叉验证，确保了结果的可靠性，可直接用于理论验证、模型比较或作为机器学习任务中结构化数据的输入源。

背景与挑战

背景概述

Omega Tensor数据集由Charles C. Norton等研究人员于近期创建，专注于计算理论与算法信息论领域。该数据集通过详尽枚举方法，系统探究了在双寄存器、8位有界机器上，基于JNZ至零控制流的所有可能指令集对应的程序停机行为。其核心研究问题在于精确量化不同指令集架构下程序的停机比例，即计算有限程序空间中的停机概率Ω，从而为理解计算模型的固有性质与可计算性边界提供实证基础。这一工作深化了对停机问题有限实例的认知，对程序分析、形式验证及硬件设计等领域具有潜在影响力。

当前挑战

Omega Tensor数据集旨在解决计算理论中停机问题的有限实例量化挑战，即精确测定在有限程序长度与有限状态空间下，不同指令集对应的程序停机比例。这一问题的难点在于状态空间的组合爆炸，以及需要确保计算结果的精确性与可验证性。在构建过程中，面临的主要挑战包括：对超过640亿次程序执行进行高效且无误的枚举与模拟；设计能够处理大规模穷举计算的优化算法与并行架构；以及通过FPGA硬件测量与多平台交叉验证，确保数据集的绝对准确性与可靠性，避免近似或采样引入的偏差。

常用场景

经典使用场景

在计算理论和算法信息论领域，Omega Tensor数据集为研究停机问题提供了精确的实证基础。该数据集通过详尽枚举所有长度为8的程序，覆盖了38,416种指令集架构，精确计算了每个指令集下的停机程序数量。这一经典使用场景使得研究者能够深入探索有限状态机器中停机概率的分布规律，为理解计算不可判定性在有限域中的表现提供了关键数据支持。

实际应用

在实际应用中，Omega Tensor数据集为硬件设计验证和编译器优化提供了重要参考。通过对比不同指令集的停机分数与循环特征，工程师可以评估处理器架构的可靠性与效率，例如在FPGA或嵌入式系统设计中避免无限循环风险。此外，该数据集还可用于测试程序分析工具，帮助开发更安全的实时系统，确保关键任务在有限资源下可靠终止。

衍生相关工作

基于该数据集衍生的经典工作包括对指令集架构的统计分析与分类研究，例如探索操作码组合与停机概率之间的相关性。这些研究进一步推动了有限自动机理论的发展，并启发了新型程序验证方法。此外，数据集中的精确测量结果已被用于验证硬件仿真工具，促进了计算模型在工程实践中的跨平台一致性检验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集