RubyCraft-3.4-Instruct

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/mehmetdavut/RubyCraft-3.4-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

RubyCraft-3.4-Instruct是一个经过合成生成和严格过滤的数据集，旨在快速适配小型语言模型（SLMs）至最新的编程语言规范，特别是Ruby 3.4。该数据集展示了如何以极低成本（约€4.20）创建高性能的代码专家模型，有效减少对昂贵的大型语言模型API的依赖。数据集按教师模型和质量等级组织，以促进模型蒸馏和鲁棒性研究。数据生产流程包括合成生成、静态分析、Oracle验证、语义去重和LLM评分等多个阶段，确保数据的高质量和功能性。数据集包含多个子集，分别由Gemini-2.5-Flash和GPT-OSS-120B教师模型生成，并经过不同级别的质量筛选，适用于文本生成和代码生成任务。

RubyCraft-3.4-Instruct is a synthetically generated and rigorously filtered dataset designed to quickly adapt small language models (SLMs) to the latest programming language specifications, particularly Ruby 3.4. The dataset demonstrates how to create high-performance code expert models at a very low cost (approximately €4.20), effectively reducing reliance on expensive large language model APIs. The dataset is organized by teacher models and quality levels to facilitate model distillation and robustness research. The data production process includes multiple stages such as synthetic generation, static analysis, Oracle verification, semantic deduplication, and LLM scoring, ensuring high quality and functionality of the data. The dataset contains multiple subsets generated by Gemini-2.5-Flash and GPT-OSS-120B teacher models, each subjected to different levels of quality filtering, and is suitable for text generation and code generation tasks.

创建时间：

2026-04-25

原始信息汇总

数据集概述：RubyCraft-3.4-Instruct

RubyCraft-3.4-Instruct 是一个合成生成并经过严格筛选的数据集，旨在帮助小型语言模型（SLMs）快速适应 Ruby 3.4 编程语言规范。该数据集以极低的成本（约 €4.20）展示了如何创建高性能的代码专家模型，从而减少对昂贵的大型语言模型API的依赖。

许可证： Apache-2.0
语言： 英语
标签： Ruby, 代码生成, 小型语言模型, 合成数据, 蒸馏, 指令微调
任务类别： 文本生成
数据集大小： 10K < n < 100K

数据组成与配置

数据集按教师模型和质量层级进行组织，以支持模型蒸馏和鲁棒性研究。包含以下 8 个文件，分为两个配置（config）组：

文件名	教师模型	样本数	描述
`gemini_train_1k_all` (gemini_1k_all.jsonl)	Gemini-2.5-Flash	1,000	原始合成数据（主要教师）
`gemini_train_1k_hq` (gemini_1k_hq.jsonl)	Gemini-2.5-Flash	527	1K 数据集的高质量子集
`gemini_train_5k_all` (gemini_5k_all.jsonl)	Gemini-2.5-Flash	5,000	更大规模的原始合成数据集
`gemini_train_5k_hq` (gemini_5k_hq.jsonl)	Gemini-2.5-Flash	1,845	冠军训练集，为提高效率而优化
`gpt_oss_train_1k_all` (gpt_oss_1k_all.jsonl)	GPT-OSS-120B	1,000	来自辅助教师的原始合成数据
`gpt_oss_train_1k_hq` (gpt_oss_1k_hq.jsonl)	GPT-OSS-120B	462	GPT-OSS 1K 数据集的高质量子集
`gpt_oss_train_5k_all` (gpt_oss_5k_all.jsonl)	GPT-OSS-120B	5,000	来自辅助教师的大规模原始合成数据
`gpt_oss_train_5k_hq` (gpt_oss_5k_hq.jsonl)	GPT-OSS-120B	1,346	GPT-OSS 5K 数据集的高质量子集

数据生产与筛选流程

所有样本均通过“自主合成数据流水线”处理，包含以下阶段：

合成生成： 教师大语言模型（Gemini-2.5-Flash 和 GPT-OSS-120B）被提示为 200 个复杂软件场景生成独特的实现，以测试多教师鲁棒蒸馏。
严格筛选（策展）：
- 静态分析： 使用 RuboCop 强制执行 Ruby 3.4 的现代风格规则。
- Oracle 验证： 通过 ruby-c 验证代码语法，并在沙盒环境中执行以确保功能正确性。
- 语义去重： 使用嵌入模型 (all-MiniLM-L6-v2) 去除冗余的实现模式。
- LLM 作为评判者： 根据样本对 Ruby 3.4 现代特性（例如模式匹配、Data.define）的使用情况，按 1-10 分进行评分。

搜集汇总

数据集介绍

构建方式

RubyCraft-3.4-Instruct数据集通过一套名为“自主合成数据流水线”的自动化流程构建而成。该流水线首先利用Gemini-2.5-Flash和GPT-OSS-120B等大语言模型作为教师模型，针对200个复杂的软件场景生成独特的代码实现，以实现多教师鲁棒蒸馏。随后，生成的数据经过严格的多阶段筛选：采用RuboCop进行静态分析以强制遵循Ruby 3.4的现代代码风格；通过ruby-c解析器和沙盒执行环境验证语法正确性与功能完备性；借助all-MiniLM-L6-v2嵌入模型进行语义去重，消除冗余实现模式；最后利用大模型作为评判员，根据对Ruby 3.4新特性（如模式匹配、Data.define）的应用程度进行1-10分的质量评分，形成涵盖不同规模与质量等级的子集。

特点

该数据集的核心特色在于以极低的成本（约4.20欧元）实现了小型语言模型对最新编程语言规范（Ruby 3.4）的快速适配，打破了依赖昂贵大模型API的壁垒。数据集按照教师模型（Gemini-2.5-Flash与GPT-OSS-120B）和质量层级（原始合成数据与高质量子集）进行了精细划分，提供从1,000到5,000条样本不等的共10个配置，便于研究者探索知识蒸馏的鲁棒性与数据质量对模型性能的影响。其中，“Champion Training Set”（gemini-5k_hq）经优化后以1,845条高质量样本实现了最大效率，充分体现了高质量合成数据在小模型训练中的卓越潜力。

使用方法

用户可通过Hugging Face Datasets库加载该数据集，并根据需求选择不同的子集配置。例如，使用`load_dataset("RubyCraft-3.4-Instruct", split="gemini_train_5k_hq")`即可加载作为冠军训练集的高质量Gemini教师数据。数据集适用于文本生成任务，特别适合用于对小型语言模型进行指令微调或代码生成能力的蒸馏训练。推荐研究者利用不同教师模型和质量的子集进行对比实验，以探究数据规模、教师能力与筛选策略对下游模型性能的影响，从而优化蒸馏流程中的成本与效果平衡。

背景与挑战

背景概述

RubyCraft-3.4-Instruct数据集由研究团队于近期创建，旨在应对小语言模型（SLM）在最新编程语言规范适配中的滞后问题。该数据集依托Gemini-2.5-Flash与GPT-OSS-120B等教师模型，通过合成数据生成与严格过滤，以极低成本（约4.20欧元）实现针对Ruby 3.4的高效指令微调。核心研究聚焦于模型蒸馏与鲁棒性，探索高质量代码专家模型的轻量化构建路径。其影响力体现在打破对昂贵大语言模型API的依赖，为编程语言特定领域的小型化模型开发提供了可复现、低资源的范式，推动了代码生成与SLM微调领域的实践创新。

当前挑战

该数据集面临多层面的挑战。在领域问题层面，首要挑战是促使SLM准确学习并泛化Ruby 3.4的最新语法特性（如模式匹配、Data.define），避免模型固守旧版规范；同时需确保合成数据覆盖复杂编程场景，防止模型在真实应用中出现语义理解偏差。构建过程中，挑战包括：从教师模型生成数据时需维持多源输出的鲁棒性，避免噪声累积；通过RuboCop静态分析、沙盒执行验证和嵌入去重进行严苛过滤，平衡数据质量与数量；以及设计LLM-as-a-Judge评分机制，客观评估代码对现代特性的使用程度，确保训练集的高效性与代表性。

常用场景

经典使用场景

RubyCraft-3.4-Instruct数据集的核心用途在于为小型语言模型（SLMs）提供高质量的指令微调数据，使其能够快速适应Ruby 3.4这一最新编程语言规范的代码生成任务。研究人员通常利用该数据集对模型进行微调，以提升其在现代Ruby语法特性（如模式匹配、Data.define等）上的代码生成能力，同时探索知识蒸馏技术，通过教师模型（如Gemini-2.5-Flash和GPT-OSS-120B）生成的高质量数据来增强学生模型的性能。该数据集的多种质量分级版本（如gemini-5k_hq）为模型鲁棒性和数据效率研究提供了理想的实验平台。

衍生相关工作

该数据集的衍生工作主要集中在两个方向：一是基于其多质量层级结构，催生了一系列关于数据筛选策略的比较研究，例如比较不同教师模型生成数据的学生模型性能差异；二是其低成本合成数据管道启发了多个类似研究，将类似方法论迁移到其他编程语言（如Python 3.13、Rust 2024）或特定框架（如Ruby on Rails）的模型训练中。此外，该数据集的冠军训练集（champion training set）已被多个开源项目采纳为微调Ruby专用小模型的基准数据集，推动了代码生成模型在资源受限场景下的实用化进展。

数据集最近研究