sounio-code-examples
收藏Hugging Face2026-05-19 更新2026-05-20 收录
下载链接:
https://huggingface.co/datasets/chiuratto-AIgourakis/sounio-code-examples
下载链接
链接失效反馈官方服务:
资源简介:
Sounio精选代码示例数据集是一个专门为Sounio编程语言构建的高质量代码数据集。Sounio是一种自托管的系统和科学编程语言,专注于认知计算、不确定性传播和代数效应。该数据集包含5,000个经过精心筛选且编译通过的.sio源代码示例,旨在为代码模型的训练和评估提供支持。数据集中每个示例由Sounio源代码文件(.sio)和对应的元数据文件(.meta.json)组成,元数据包含类别、难度、来源、SHA-256哈希、编译器状态、概念标签、分割成员资格以及运行时输出等信息。数据集按照7个类别组织:基础(basic)、人类评估与MBPP(humaneval_mbpp)、知识(knowledge)、效应代数(effects_algebra)、GPU八元数(gpu_octonion)、FFI互操作(ffi_interop)和高级储备(reserve_advanced)。数据集提供了多种视图以支持不同用途,包括包含全部示例的instruction_pairs.jsonl、训练集、评估集及Parquet格式文件,以及gold_500、silver_4500和eval_200三个子集清单。所有示例均通过编译器检查,其中500个类别平衡的示例包含运行时输出。该数据集主要适用于文本生成任务,特别是代码生成、指令调优、编译器验证和运行时评估等场景,设计考虑了模型微调的实用性,并提供了详细的审计文档和质量控制流程。
The Sounio精选代码示例数据集 is a high-quality code dataset specifically constructed for the Sounio programming language. Sounio is a self-hosted systems and scientific programming language focusing on cognitive computing, uncertainty propagation, and algebraic effects. This dataset contains 5,000 carefully curated and compilation-passed .sio source code examples, designed to support the training and evaluation of code models. Each example in the dataset consists of two files: a Sounio source code file (.sio) and a corresponding metadata file (.meta.json). The metadata includes information such as category, difficulty, source, SHA-256 hash, compiler status, concept tags, split membership, and runtime output (where applicable). The dataset is organized into 7 categories: basic, humaneval_mbpp, knowledge, effects_algebra, gpu_octonion, ffi_interop, and reserve_advanced. It offers multiple views for different purposes, including instruction_pairs.jsonl with all 5,000 examples, 4,800 examples for training (instruction_pairs_train.jsonl), 200 reserved examples for evaluation (instruction_pairs_eval.jsonl), and corresponding Parquet format files. Additionally, it includes three subset manifests: gold_500 (500 high-quality examples), silver_4500 (the remaining 4,500 examples), and eval_200 (evaluation set). All examples have passed compiler checks (bin/souc check), with 500 category-balanced examples containing runtime output. This dataset is primarily suitable for text generation tasks, especially code generation, instruction tuning, compiler verification, and runtime evaluation scenarios. Its design considers practical utility for model fine-tuning and provides detailed audit documentation and quality control processes.
创建时间:
2026-05-19
原始信息汇总
Sounio Curated Code Examples 数据集详情
数据集概览
Sounio Curated Code Examples 是一个专为训练和评估代码模型而整理的编译清洁的 Sounio 语言代码示例数据集。Sounio 是一种用于认知计算、不确定性传播和代数效应的自托管系统与科学编程语言。
- 许可证: Apache-2.0
- 语言: 英语
- 数据集大小: 1,000 < n < 10,000(当前批次 5,000 个示例)
- 任务类别: 文本生成
- 标签: 代码、编译器、编程语言、科学计算、形式验证、不确定性传播、代数效应
数据集配置
数据集仅包含一个可加载的 Hugging Face 数据集配置:
- 配置名称:
instruction_pairs - 训练集文件:
instruction_pairs_train.jsonl(4,800 个示例) - 测试集文件:
instruction_pairs_eval.jsonl(200 个示例)
数据记录结构
每个示例包含以下文件:
examples/<id>.sio: Sounio 源代码文件,可在 Hugging Face Hub 上浏览和下载metadata/<id>.meta.json: 元数据文件,包含类别、难度、来源、SHA-256 哈希、编译器状态、概念标签、所属分割和预期输出(若运行时输出已捕获)
此外,数据集还包含:
manifest.json: 汇总元数据并记录类别计数instruction_pairs.jsonl: 全部 5,000 个示例的指令调优视图instruction_pairs_train.jsonl: 4,800 个训练示例instruction_pairs_eval.jsonl: 200 个评估示例data/train.parquet: 4,800 个训练行的 Parquet 格式data/eval.parquet: 200 个评估行的 Parquet 格式
子集清单位于:
subsets/gold_500/subsets/silver_4500/subsets/eval_200/
类别分类
数据集包含以下 7 个类别:
- basic: 基础示例,行数上限 ≤60 行
- humaneval_mbpp: 基于 HumanEval/MBPP 的示例
- knowledge: 知识类示例
- effects_algebra: 代数效应示例
- gpu_octonion: GPU 八元数相关示例
- ffi_interop: 外部函数接口互操作示例
- reserve_advanced: 保留高级示例
所有其他类别行数上限为 ≤150 行,当前最大行数为 150 行。
当前批次质量指标
| 指标 | 数值 |
|---|---|
| 示例总数 | 5,000 |
| 元数据文件数 | 5,000 |
| 编译器通过率 | 5,000/5,000 |
| 指令/完成对 | 5,000 对(4,800 训练 + 200 评估) |
| 运行时输出示例 | 500 个类别平衡示例 |
| 重复问题陈述 | 0 |
| 逐字库转录(去除头信息后) | 0 |
相关文档
数据集包含以下质量审核与评估文档(位于 Hugging Face 数据集仓库中):
QUALITY_AUDIT.md: 记录合成分布、验证限制和 HF 文件统计UTILITY_AUDIT.md: 记录概念、指令对、可运行示例和黄金/白银/评估视图HF_SMOKE_TEST.md: 记录发布到 Hub 后的下载和数据集查看器检查FINETUNING_PLAN.md: 定义首个无需 GPU 的训练计划和评估门控TOKENIZATION_PREFLIGHT.md: 测量分词器长度并记录 LoRA 干运行建议EVAL_HARNESS.md: 验证编译器/运行时对保留分割的评估LORA_DRY_RUN.md: 记录已准备但未执行的 LoRA 运行配置PARQUET_EXPORT.md: 记录紧凑的训练/评估 Parquet 文件BASELINE_EVAL.md: 定义在 LoRA 前对 Qwen2.5-Coder-7B 进行零样本评估的路径BASELINE_FULL_REPORT.md: 记录 200 行无训练的 Qwen2.5-Coder-7B 结果BASELINE_SMOKE_REPORT.md: 记录首次远程/本地无训练探测PRETRAIN_IMPROVEMENTS.md: 记录在 GPU 运行前的数据集清理任务GAPS.md: 记录各类别与目标分布之间的差距
微调建议
- 对于微调,应使用
instruction_pairs_train.jsonl - 不应从
silver_4500进行训练,因为它是一个语料库视图清单,仍引用保留的eval_200ID
搜集汇总
数据集介绍

构建方式
Sounio Curated Code Examples数据集专为训练和评估基于Sounio编程语言的代码模型而构建。Sounio是一种面向认知计算、不确定性传播和代数效应的自托管系统与科学编程语言。该数据集包含5,000个经过编译器严格验证的代码示例,所有示例均通过'souc check'编译检查,确保无编译错误。每个示例由源代码文件(.sio)、元数据文件(.meta.json)和指令对组成,元数据涵盖类别、难度、来源、SHA-256哈希、编译器状态及概念标签等信息。数据集进一步划分为训练集(4,800样本)和评估集(200样本),并提供500个可运行时输出的类别平衡示例。构建过程通过自动化脚本生成、验证并推送至Hugging Face Hub,确保数据的一致性与高质量。
特点
该数据集具有鲜明的结构性特点。示例覆盖8个类别,包括基础编程、HumanEval/MBPP基准、知识推理、代数效应、GPU八元数、外部函数接口及高级保留类别,体现Sounio语言的多元应用场景。代码行数严格限制:'basic'类别不超过60行,其余类别不超过150行,当前最大示例为150行,保证示例精炼。数据集强调零重复性,无逐字仓库转录,并通过质量审计、效用审计、烟雾测试及基线评估等多项文档记录其可靠性。指令对格式使得数据集可直接用于文本生成任务,并支持LoRA微调等高效训练方法,兼顾实用性与学术严谨性。
使用方法
该数据集通过Hugging Face的Dataset Viewer加载,主要配置为'instruction_pairs',对应的数据文件为instruction_pairs_train.jsonl和instruction_pairs_eval.jsonl。用户可直接使用Python的datasets库加载四万八千条训练样本与两百条评估样本进行微调。此外,数据集还提供Parquet格式的紧凑副本(data/train.parquet与data/eval.parquet),便于高效处理。对于进阶研究,数据集内含runs:true的500个示例可验证运行时输出。所有示例的源代码与元数据均以子目录形式存储于Hub仓库,用户可通过浏览或下载获取。微调流程建议仅使用training集,避免引入评估集数据,以确保评估的公正性。
背景与挑战
背景概述
Sounio Curated Code Examples数据集由chiuratto-AIgourakis团队于近期创建,专注于Sounio编程语言的代码生成与理解任务。Sounio是一种面向认知计算、不确定性传播与代数效应的自托管系统与科学编程语言,在科学计算与形式化验证领域具有独特价值。该数据集包含5000个经过编译器严格验证的代码示例,划分为基础、知识、代数效应等七个类别,并配套了完整的元数据与指令对。作为首个专门针对Sounio语言的指令微调数据集,它为提升代码模型在该领域编程语言上的表现提供了重要基准,弥补了现有数据集在科学计算与代数效应方面的空白。
当前挑战
该数据集面临的核心挑战在于双重维度。首先,在领域问题层面,Sounio语言融合了不确定性传播与代数效应等前沿概念,现有代码生成模型缺乏对此类特性的训练数据,难以准确理解其语义和编译约束。其次,在构建过程中,团队需确保所有示例通过自定义编译器验证,并维持类别平衡与代码长度限制;同时需构建0重复的问题表述,并通过完整的质量审计与基线评估流程,最终在无GPU环境下验证微调方案的可行性,这对数据治理与工程协调提出了极高要求。
常用场景
经典使用场景
Sounio Curated Code Examples数据集专为训练和评估基于Sounio语言(一种面向认知计算、不确定性传播与代数效应的自托管系统及科学编程语言)的代码模型而构建。其经典使用场景涵盖代码生成、指令微调与编译器验证:研究人员利用该数据集中5000条经编译器严格检验(pass率100%)的.sio源码文件及配套的指令/补全对,对大型语言模型进行监督式微调,以习得Sounio语言的语法规则、类型系统及语义约束。同时,该数据集亦被用作零样本或小样本评估基准,通过200条保留样本测试模型在科学计算、代数效应处理及不确定性量化等任务上的代码生成能力,确保模型输出符合Sounio编译器与运行时系统的预期行为。
解决学术问题
该数据集的核心学术贡献在于填补了面向新兴领域特定语言(DSL)的代码模型训练资源空白。长期以来,主流代码生成研究集中于通用编程语言(如Python、C++),而缺乏对认知计算、不确定性传播及代数效应等学术前沿技术的系统化数据支撑。Sounio Curated Code Examples通过提供经严格编译检查的源码与元数据,解决了以下问题:其一,为代数效应与处理器形式化验证研究提供了可重复训练的基准数据集,使模型能学习到效应处理程序(effect handlers)的正确组合与类型约束;其二,支持不确定性传播算法的自动生成与验证,推动概率编程与科学计算交叉领域的发展;其三,通过刻画GPU八元数运算、外部函数接口等高级特性,拓展了代码模型对异构计算与混合语言编程的理解边界,为后续形式化验证与编译器优化研究奠定了数据基础。
衍生相关工作
该数据集衍生了一系列推动Sounio生态发展的经典工作。基于其instruction_pairs配置,研究者训练了首个LoRA适配器以增强Qwen2.5-Coder-7B在Sounio语言上的代码补全能力,并产生了完整的基线评估报告(BASELINE_EVAL.md)与全量基线报告(BASELINE_FULL_REPORT.md),为后续模型优化提供了参照标准。质量审计(QUALITY_AUDIT.md)与实用审计(UTILITY_AUDIT.md)文档系统定义了金标、银标与评估子集(gold_500/silver_4500/eval_200),推动了数据集版本控制与增量生成流程的标准化。更值得注意的是,预训练改进报告(PRETRAIN_IMPROVEMENTS.md)与微调计划(FINETUNING_PLAN.md)形成了一套可复现的数据清洗-微调-评估管线,为其他领域特定语言的代码数据集构建提供了方法论模板。
以上内容由遇见数据集搜集并总结生成



