JollyFraud/crimeopus-distill-v2
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/JollyFraud/crimeopus-distill-v2
下载链接
链接失效反馈官方服务:
资源简介:
CrimeOpus 4.7蒸馏编码数据集是一个用于微调CrimeOpus 4.7-v2(LoRA训练)的数据集。它包含来自多个来源的427条数据,包括DeepSeek-Chat蒸馏(157条,多领域编码/推理)、Git commit-diff(91条,真实代码库模式)和未审查种子(179条,无拒绝的有用性)。数据格式为ChatML消息数组,包含系统、用户和助手的角色内容。数据集统计信息显示,平均用户消息长度约为281字符,平均助手响应长度约为2745字符,总令牌数估计为323k。数据集支持意大利语和英语,以及代码内容,用于QLoRA微调。
CrimeOpus 4.7 — Distilled Coding Dataset is a fine-tuning dataset for CrimeOpus 4.7-v2 (LoRA training). It contains 427 entries from multiple sources, including DeepSeek-Chat distillation (157, multi-domain coding/reasoning), Git commit-diff (91, real codebase patterns), and uncensored seed (179, refusal-free helpfulness). The data format is a ChatML messages array with system, user, and assistant roles. Dataset statistics show an average user message length of ~281 chars, average assistant response length of ~2745 chars, and total estimated tokens of ~323k. The dataset supports Italian and English languages, as well as code content, and is used for QLoRA fine-tuning.
提供机构:
JollyFraud
搜集汇总
数据集介绍

构建方式
CrimeOpus Distill V2数据集专为CrimeOpus 4.7-v2模型的高效微调而构建,其构建过程融合了多源异构数据。该数据集包含427条精心筛选的样本,主要源自三个途径:从DeepSeek-Chat模型蒸馏而来的157条多领域编码与推理样本,源自真实代码仓库CrimeCode-IDE的91条Git提交差异样本,以及包含拒绝无害化与偏好混合的179条无审查种子样本。所有数据均以ChatML消息数组格式组织,确保与大语言模型训练范式的兼容性。
特点
该数据集呈现出鲜明的多语言与多领域特征,以意大利语和英语为主要语言载体,并深度融合代码数据。样本统计显示,用户消息平均长度约281字符,而助手回复平均长度达2745字符,展现了丰富的指导细节与推理深度。数据集规模虽小但精炼,估计包含约32.3万个令牌,且经过严格的拒绝性内容过滤,确保零误拒率。其以“蒸馏”为核心特征,继承了大模型的高质量生成能力,同时通过真实代码差异样本注入实战模式。
使用方法
CrimeOpus Distill V2数据集的使用方法极为简洁,研究人员可通过Hugging Face的Datasets库直接加载。只需一行Python代码即可获取训练分割数据,适用于QLoRA等参数高效微调框架。该数据集已被成功应用于huihui-ai/Huihui-Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated模型的微调实践中。鉴于其ChatML格式属性,使用者可直接将其注入标准的监督式微调流水线,特别适合追求编码推理能力与多语言支持场景下的模型优化任务。
背景与挑战
背景概述
在大语言模型快速迭代的背景下,高质量、领域特定的微调数据集成为提升模型性能的关键。CrimeOpus-distill-v2数据集由JollyFraud于近期创建,专为CrimeOpus 4.7-v2模型的LoRA微调而设计,核心研究问题在于通过蒸馏、真实代码库模式及无审查种子数据的融合,构建一个多领域、多语言的代码推理与问答数据集。该数据集汇聚了DeepSeek-Chat蒸馏样本、Git提交差异及无审查帮助性样本,共计427条高质量对话,覆盖意大利语、英语及代码领域,对推动多语言代码生成模型的精细调优具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于生成模型的代码推理能力与无审查帮助性之间的平衡,特别是如何避免模型产生拒绝回答行为,同时确保输出内容的准确性与相关性。数据集构建过程中面临多重挑战:首先,从DeepSeek-Chat蒸馏出的157个样本需保证与原始模型推理质量的一致性;其次,从CrimeCode-IDE提取的91个Git提交差异需转化为具有教育价值的对话格式;最后,179个无审查种子数据需通过‘toxic-dpo’与‘orpo-mix’策略精心过滤,以消除有害内容,但保留其帮助性,整个流程需精细控制数据质量与多样性,最终形成仅427条但高度精炼的微调样本集。
常用场景
经典使用场景
在自然语言处理与代码生成领域,对大型语言模型进行指令微调时,高质量、多样化的训练数据至关重要。CrimeOpus Distill v2 数据集专为模型的后训练对齐而设计,尤其适用于对编码与推理能力进行强化。其经典使用场景是利用蒸馏技术从DeepSeek-Chat等强模型中提炼高质量指令对,再辅以真实代码仓库的提交差异数据以及经过无害化处理的拒绝拒绝式训练样本,构建出包含427条ChatML格式消息的多领域微调集。研究者常将其用于QLoRA等参数高效微调流程中,以提升小模型在代码理解、代码生成与复杂推理任务上的表现。
衍生相关工作
围绕CrimeOpus Distill v2 数据集衍生了一系列具有影响力的研究工作。其中最具代表性的是基于该数据集并使用QLoRA技术微调的 Huihui-Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated 模型,该模型在编码与推理基准上展现了令人瞩目的能力提升。此外,数据集的构建流程催生了对蒸馏数据质量控制方法的深入探讨,例如如何从教师模型中筛选高信息量样本,以及如何将真实代码差异数据与合成数据有效混合。这些探索为后续如Code-Alpaca、Magicoder等专注于代码生成的蒸馏数据工作提供了可复现的工程范式与设计参考。
数据集最近研究
最新研究方向
在当前大语言模型对齐与安全研究的前沿,CrimeOpus-Distill-V2数据集聚焦于无审查编码能力的蒸馏优化,将无禁忌(uncensored)的深度求索(DeepSeek)对话蒸馏、真实代码库差异(Git commit-diff)与拒绝行为过滤的混合样本进行融合,以支撑低秩适配(LoRA)微调。该数据集的核心贡献在于平衡模型的安全性与有用性——通过剔除拒绝型回答(refusal-free),保留对复杂编码推理任务的高效响应能力,尤其是在意大利语与英语混合的代码生成场景中。其设计思路直接回应了当前业界对“可操控对齐”(steerable alignment)的热点关切:如何在不对模型进行过度安全限制的前提下,保持其实用性与创造力。该数据集已成功应用于Huihui-Qwen3.6大模型的QLoRA微调,为多语言、无审查的编码助手开发提供了高质量的训练基础,推动了开源社区在细粒度模型行为控制领域的实践进程。
以上内容由遇见数据集搜集并总结生成



