RubyCraft-3.4-Eval-Logs

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/mehmetdavut/RubyCraft-3.4-Eval-Logs

下载链接

链接失效反馈

官方服务：

资源简介：

RubyCraft-3.4评估日志数据集包含了对小型语言模型（SLM）在Ruby 3.4语法适应研究中的全面评估日志，包括原始和处理后的输出。数据集覆盖了超过26,000个评估行，涉及96种LoRA配置、4个基础模型和多个教师模型。数据集分为详细评估日志（JSONL）和聚合指标（CSV）两个层次。详细日志包括来自HumanEval-rb基准的161个测试任务和40个自定义任务的结果，而聚合指标展示了诊断净化程序（DSP）对通过率和风格分数的改进效果。每个JSONL条目包含丰富的元数据，如原始提示、模型响应、净化后的响应、评估日志和触发的净化规则。该数据集为研究SLM在严格执行环境中因格式问题而隐藏的真实能力提供了实证基础。

创建时间：

2026-04-25

原始信息汇总

RubyCraft-3.4 Evaluation Logs 数据集概述

基本信息

许可证：Apache-2.0
语言：英文
标签：ruby-3.4, evaluation, code-generation, llm-evaluation, dsp-benchmark
任务类别：文本生成

数据集简介

该数据集包含用于研究小型语言模型（SLM）适配 Ruby 3.4 语法的全面评估日志，涵盖原始输出与处理后的输出。数据集覆盖超过 26,000 条评估记录，来自 96 个 LoRA 配置、4 个基础模型和多个教师模型。

核心成果（DSP 影响）

通过诊断净化程序（DSP），揭示了小型语言模型中原本因严格格式化规则（外部合规性）而被掩盖的巨大隐藏能力（内在能力）：

指标	数值
总评估数	26,243
DSP 前通过数	6,385
DSP 后通过数	9,892
总计挽救数	+3,507 条评估

典型案例：基础模型 Qwen2.5-Coder (1.5B) 初始通过率为严格的 0%（因代码被包裹在 Markdown 标签中），经 DSP 方法（如 strip_markdown 和基本端块修复）处理后，其内在能力瞬间提升至 25.5% 通过率，无需额外训练。

数据集结构

1. 详细评估日志（JSONL 格式）

intrinsic_capability_humaneval：包含 HumanEval-rb 基准测试中 161 个测试任务的逐行结果。
extrinsic_compliance_custom：包含 40 个自定义测试任务的逐行结果，用于测试 Ruby 3.4 特定特性（如 Data.define 和 it 块参数）。

2. 聚合指标（CSV 格式）

ic_before_after.csv：展示 DSP 对 HumanEval 通过率的影响，包括触发的净化规则精确频率。
ec_before_after.csv：展示 40 个自定义任务的风格评分提升和 Ruby 语法通过率。

关键元数据字段

每条 JSONL 条目包含丰富的元数据，支持深度过滤和对比分析：

prompt：提供给模型的原始编码挑战。
raw_response：模型的初始未编辑输出。
sanitized_response：应用 DSP 后的输出。
judgments：详细评估日志，包含标准输出（stdout）、标准错误（stderr）以及 Ruby 3.4 解析器和 Rubocop 生成的具体违规规则。
sanitization_rules：用于挽救代码的特定 DSP 规则列表（例如 strip_markdown、remove_double_def、fix_missing_end(+1)）。

数据价值

这些日志作为研究小型语言模型中 “格式化幻觉” 的实证基础。通过分析 DSP 前后的差异，研究人员可以观察模型如何常常具备解决复杂逻辑问题的内在能力（IC），但由于缺乏**外部合规性（EC）**而在严格执行环境中失败。日志展示了 DSP 方法如何通过弥合合规性差距成功恢复模型性能，突显了在自动化基准测试中低估基础小型语言模型的风险。

搜集汇总

数据集介绍

构建方式

RubyCraft-3.4-Eval-Logs数据集是为研究小型语言模型对Ruby 3.4语法的适应能力而构建的综合评估日志集合。其构建基于96种LoRA配置、4种基础模型及多种教师模型的组合，通过诊断消毒程序进行系统性评估。数据划分为两大粒度：详细日志以JSONL格式存储，包含161项HumanEval-rb基准测试的逐行结果（intrinsic_capability_humaneval），以及40项定制化Ruby 3.4特性任务的评估记录（extrinsic_compliance_custom）；聚合指标以CSV格式呈现，提供诊断消毒前后的通过率对比与风格评分改进。总计超过26,243条评估记录，覆盖模型输出的原始响应、消毒后响应及详细裁判日志。

特点

该数据集的核心特色在于首次系统性地揭示了小型语言模型在代码生成任务中存在的格式化幻觉现象。通过对比诊断消毒程序实施前后的评估结果，研究人员可以直观观察模型内在能力与外在合规性之间的显著差距。数据集展示了Qwen2.5-Coder模型在标记语言包装下仅获得0%通过率，经简单消毒后跃升至25.5%的典型案例，实证了格式规则严格性对模型真实性能的掩盖效应。丰富的元数据字段如触发消毒规则列表、标准输出与错误信息，为深入分析模型行为模式提供了细粒度支撑。

使用方法

本数据集适用于代码生成模型与评估基准的联合分析研究。使用者可通过加载JSONL日志文件，提取prompt、raw_response与sanitized_response字段，复现诊断消毒程序对模型输出质量的影响。CSV聚合指标文件可直接用于宏观性能对比，分析不同配置组合下的通过率变化趋势。数据集特别适合探究小型语言模型在严格语法约束环境下的真实编码能力，可作为评估流程中格式化错误纠正策略研究的基础数据源，亦可用于训练或微调代码后处理模块以提升模型外在合规性表现。

背景与挑战

背景概述

RubyCraft-3.4-Eval-Logs数据集由研究团队于近期创建，旨在系统评估小型语言模型（SLM）对Ruby 3.4语法的适应能力。该数据集涵盖了超过26,000条评估记录，涉及96种LoRA配置、4个基础模型及多个教师模型，其核心研究问题聚焦于诊断和量化“格式化幻觉”对SLM真实编码能力的遮蔽效应。通过引入诊断净化流程（DSP），研究揭示了SLM内在的编码潜能，例如Qwen2.5-Coder（1.5B）模型在去除Markdown包裹后通过率从0%跃升至25.5%。该数据集为理解LLM在代码生成任务中的评估偏差提供了实证基础，对推动更公正的模型评测范式具有重要价值。

当前挑战

该数据集解决的领域挑战包括：1）代码生成评估中“格式化幻觉”问题，即模型虽具备解决逻辑问题的内在能力，却因输出格式不符合严格语法规则（如缺少end关键字、多余Markdown标记）而失分，导致真实能力被低估；2）自动基准测试难以区分模型的知识缺陷与格式错误，传统通过率指标无法反映潜在能力。构建过程中面临的挑战包括：设计覆盖Ruby 3.4新特性的40项定制任务，以确保评估全面性；开发诊断净化流程以自动识别并修复常见格式错误，同时避免过度修复引入新错误；以及协调96种LoRA配置与多个教师模型的大规模实验，确保评估结果的可复现性。

常用场景

经典使用场景

RubyCraft-3.4-Eval-Logs数据集在代码生成与评估领域具有经典的应用场景。它被广泛用于评测小型语言模型在Ruby 3.4语法环境下的代码生成能力，特别是在诊断格式化幻觉问题方面。研究者可以利用该数据集中的详细评估日志，包括原始输出和经过诊断性清理规程处理后的输出，来量化和分析模型的内在逻辑能力与外在格式合规性之间的差距。通过对比HumanEval-rb基准测试和自定义Ruby 3.4特性任务的逐行结果，该数据集为评估模型在不同约束条件下的表现提供了坚实的数据基础。

解决学术问题

该数据集在学术研究中解决了若干关键问题。首先，它揭示了小型语言模型由于严格的格式规则而导致的“格式化幻觉”现象，即模型具备解决复杂逻辑问题的内在能力，但因无法满足格式要求而在自动化基准测试中表现不佳。其次，数据集通过诊断性清理规程的方法论，展示了如何在不进行额外训练的情况下，通过简单的规则修复（如去除Markdown标记）释放模型真实潜力，显著提升通过率。这为重新评估基础语言模型在代码生成任务上的实际能力提供了重要依据，并推动了关于模型评估标准化和去噪方法的研究。

衍生相关工作

基于RubyCraft-3.4-Eval-Logs数据集已衍生出多项经典研究工作。其中，诊断性清理规程作为核心方法论，被后续研究广泛引用和扩展，用于探索其他编程语言和模型架构中的格式化幻觉现象。一些工作在HumanEval-rb之外开发了新的Ruby语法评估基准，以更细粒度地测试模型对语言特性的掌握程度。此外，该数据集促进了关于模型内在能力与外在表现脱钩的理论分析，推动了去噪评估策略的发展，使得研究者能够更准确地衡量模型的真实编程理解水平，并启发了一系列针对低资源语言代码生成的清理与优化技术。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集