nanochat-wasm-examples

Hugging Face2026-03-29 更新2026-03-30 收录

下载链接：

https://huggingface.co/datasets/eastlondoner/nanochat-wasm-examples

下载链接

链接失效反馈

官方服务：

资源简介：

WASM协处理器预训练示例数据集是一个用于训练模型调用WebAssembly协处理器解决计算任务的合成数据集。每个示例包含一个自然语言问题及其对应的WASM字节码程序解决方案。数据集包含18万训练样本和2万评估样本，涵盖算术、位运算、文件系统、局部变量、内存、多步计算、编程、数独和文字问题等多个类别。数据集的字段包括文本表示（问题+WASM程序+答案）、预标记化的输入ID序列、问题类别、JSON序列化的WASM程序指令、协处理器执行的预期输出、自然语言问题和答案。该数据集适用于文本生成任务，特别是涉及代码和数学问题的场景。

创建时间：

2026-03-23

原始信息汇总

数据集概述

基本信息

数据集名称: WASM Coprocessor Pretraining Examples
托管地址: https://huggingface.co/datasets/eastlondoner/nanochat-wasm-examples
许可协议: Apache 2.0
主要任务: 文本生成
主要语言: 英语
数据规模: 100K < n < 1M

数据集描述

该数据集是为学习调用WebAssembly协处理器以解决计算任务的模型生成的合成训练数据。每个示例都将一个自然语言问题与一个解决该问题的WASM字节码程序配对。

训练示例数量: 180,000
评估示例数量: 20,000
规模: 巨大
问题类别: 算术、按位运算、文件系统、局部变量、内存、多步骤、编程、数独、文字问题

数据模式

列名	类型	描述
`text`	字符串	人类可读的表示形式（问题 + WASM 程序 + 答案）
`input_ids`	整数列表	预分词的序列，包含文本令牌（0-65535）和WASM令牌（65536+）
`category`	字符串	问题类别（算术、编程等）
`wasm_program`	字符串	JSON序列化的WASM程序指令
`expected_outputs`	整数列表	协处理器执行的预期输出值
`question`	字符串	自然语言问题
`answer`	字符串	自然语言答案

令牌ID范围

0-65535: 标准BPE文本令牌（基于NanochatTokenizer，tiktoken）
65536+: WASM令牌（操作码、操作数、反馈标记）
- 65536 + opcode: WASM指令（例如 I32_CONST=0x00, I32_ADD=0x01）
- 65536 + 261: REPL_RESULT（执行反馈标记）
- 65536 + 262: BRANCH_TAKEN_REPL
- 65536 + 263: BRANCH_NOT_TAKEN

类别详情

算术: 基本运算、链式表达式、比较
文字问题: GSM8K风格的数学文字问题
编程: 质数、最大公约数、FizzBuzz、阶乘、斐波那契数列、列表操作
数独: 约束满足（单元格验证）
按位运算: 与、或运算
内存: 在256字节内存上的存储/加载操作
局部变量: 使用局部变量的设置/获取/计算
多步骤: 链式表达式、循环、嵌套计算
文件系统: 在虚拟文件上的打开、读取、写入、关闭操作

使用示例

python from datasets import load_dataset

ds = load_dataset("your-username/nanochat-wasm-coprocessor-examples")

example = ds["train"][0] print(example["question"]) print(example["text"]) print(f"Token sequence length: {len(example[input_ids])}")

搜集汇总

数据集介绍

构建方式

在人工智能与编程语言交叉领域，nanochat-wasm-examples数据集通过合成方法生成，专为训练模型调用WebAssembly协处理器解决计算任务而设计。该数据集包含20万条样本，其中训练集18万条、评估集2万条，覆盖算术、编程、数独、位运算、内存操作、多步骤推理及文件系统等九大类别。每条数据均将自然语言问题与对应的WASM字节码程序配对，并附带预期输出，通过系统化的程序生成与标注流程构建而成，确保了数据在计算逻辑上的准确性与多样性。

特点

该数据集的核心特点在于其独特的双模态表示结构，既包含人类可读的自然语言问题与答案，也提供了预分词的输入标识序列及JSON序列化的WASM程序指令。其分词体系将标准BPE文本标识符与专用WASM操作码标识符分离，后者映射于65536以上的标识范围，并包含执行反馈标记，从而支持模型学习如何触发并解释协处理器行为。数据覆盖从基础算术到复杂编程问题的广泛计算场景，且通过明确的类别划分与结构化字段，为模型提供了细粒度、可解释的训练信号。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库直接加载，并访问训练与评估分片。每条样本提供自然语言问题、完整文本表示、预分词标识序列、类别标签、WASM程序及预期输出等多个字段，便于模型进行端到端训练或分阶段优化。典型工作流程包括加载数据、解析问题与程序对，并利用输入标识序列进行模型预训练或微调，使模型学会在推理过程中调用WASM协处理器来求解各类计算任务，从而增强其在数学推理与代码生成方面的能力。

背景与挑战

背景概述

随着大型语言模型在自然语言处理任务中展现出卓越性能，其在复杂推理与精确计算方面的局限性逐渐凸显。为探索模型与外部计算模块的协同机制，nanochat-wasm-examples数据集应运而生，由相关研究团队于近期构建，旨在训练模型学习调用WebAssembly协处理器以解决计算密集型任务。该数据集的核心研究问题聚焦于如何通过合成数据引导模型掌握将自然语言问题转化为可执行WASM字节码程序的能力，从而增强模型在算术、编程及逻辑推理等领域的精确性与可靠性，为语言模型与专用计算单元的融合架构提供了关键数据支撑。

当前挑战

该数据集致力于应对语言模型在精确计算与符号推理方面的固有挑战，其核心问题在于如何使模型准确理解自然语言问题并生成正确的WASM程序以执行计算。构建过程中的挑战主要包括：合成高质量且多样化的训练样本需覆盖算术、编程、数独及文件系统等多种类别，确保WASM字节码与自然语言问题间的语义对齐；设计合理的令牌化方案以区分文本令牌与WASM操作码，并整合执行反馈标记，从而有效引导模型学习程序执行逻辑与结果验证。

常用场景

经典使用场景

在自然语言处理与计算系统交叉领域，nanochat-wasm-examples数据集为模型训练提供了独特范例，其核心场景在于教导语言模型如何调用WebAssembly协处理器以解决复杂计算任务。通过将自然语言问题与对应的WASM字节码程序配对，该数据集使模型能够学习解析人类指令并生成可执行的底层代码，从而在算术运算、编程逻辑及文件系统操作等多样化任务中实现精确的推理与执行。

衍生相关工作

围绕该数据集，研究社区已衍生出多项经典工作，主要集中在增强语言模型的程序合成能力与推理架构设计上。例如，基于WASM令牌扩展的预训练策略改进了模型对低级指令的编码效率；结合执行反馈机制的微调方法提升了代码生成的正确性；此外，在算术推理、约束求解及多模态任务规划等领域，该数据集也被用作评估基准，催生了新型的神经-符号混合模型与分层推理框架，持续拓展着人工智能在计算密集型任务中的应用边界。

数据集最近研究