five

hotdogs/bas95_filtered

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/hotdogs/bas95_filtered
下载链接
链接失效反馈
官方服务:
资源简介:
bas95_filtered是Bas95/reasoning-distill-claude-opus-4-7-max数据集的过滤子集,移除了所有拒绝回答的内容。该数据集包含8,124个示例,每个示例都是一个消息列表,包含角色和内容,用于训练huihui-qwen3.6-27b-reasoning-lora-bas95模型。数据集格式为JSON,每个消息包含系统、用户和助理的角色及其内容。数据集已经过验证,确保100%为推理链,无拒绝回答。

bas95_filtered is a filtered subset of Bas95/reasoning-distill-claude-opus-4-7-max with 0% refusals. It contains 8,124 examples, each being a messages list with role and content, used to train huihui-qwen3.6-27b-reasoning-lora-bas95. The dataset format is JSON, with each message containing roles (system, user, assistant) and their content. It has been verified to be 100% reasoning chains with no refusals.
提供机构:
hotdogs
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型推理能力蒸馏的浪潮中,bas95_filtered数据集应运而生。该数据集源自Bas95/reasoning-distill-claude-opus-4-7-max,经由名为UKA的AI代理——基于Hermes Agent构建——进行精心筛选与验证后形成。构建过程聚焦于去除原始数据中的拒绝回答模式,通过扫描所有助手的回复内容,逐一匹配包括“I cannot”、“I can't”、“as an AI”等在内的典型拒答特征词,最终确认原始数据本身已实现零拒绝率,因而无需额外过滤,纯净保留了所有推理链样本。
特点
bas95_filtered数据集以其高度纯净的推理内容而独树一帜。总计包含8,124条样例,每条数据均以消息列表格式呈现,完整保留了Claude Opus 4.7的逐步推理链,从系统提示到用户提问再到助手的细致思考过程一应俱全。数据集零拒绝率的特性使其成为训练推理导向模型的理想素材,且整体规模轻量(约24MB),便于灵活加载与实验。其精简且无干扰的构成为后续微调任务奠定了扎实基础。
使用方法
该数据集的使用方式极为便捷,完美契合现代NLP工作流。研究者可通过HuggingFace datasets库直接加载,调用`load_dataset("hotdogs/bas95_filtered", split="train")`即可获得训练集;亦可使用`load_from_disk("bas95_filtered")`从本地读取。数据集已应用于huihui-qwen3.6-27b-reasoning-lora-bas95模型的训练,支持QLoRA方法对abliterated Qwen3.6-27B进行高效微调,为探索推理能力蒸馏与模型优化提供了可靠的数据支撑。
背景与挑战
背景概述
在大型语言模型(LLMs)的推理能力蒸馏领域,高质量、无拒答的数据集对于提升模型的推理连贯性与实用性至关重要。bas95_filtered数据集由UKA团队基于Hermes Agent智能体于近期创建,旨在从Bas95/reasoning-distill-claude-opus-4-7-max原始数据中筛选出纯净的推理链样本。该数据集聚焦于消除模型在推理过程中常见的拒答行为,以支持对Qwen3.6-27B等模型进行QLoRA微调,从而增强其复杂问题的逐步推理能力。通过提供8,124条无任何拒答模式的对话消息,该数据集为推理蒸馏任务树立了质量标杆,对推动开放域推理模型的实用化发展具有显著影响力。
当前挑战
该数据集所解决的核心领域挑战在于,现有推理蒸馏数据集中普遍存在的模型拒答问题(如输出“我无法回答”或“作为AI,我无法...”等)严重破坏了推理链的完整性和可用性,导致微调后的模型在面对敏感或复杂问题时倾向于回避而非展示推理过程。此外,构建过程中的挑战包括对原始数据集进行彻底的模式扫描与清洗,需设计全面的拒答正则表达式库以覆盖多种语言变体,同时确保过滤过程不误删合法推理样本。最终在8,124条样本中实现零拒答率,验证了过滤策略的有效性,但这一过程对自动化工具的鲁棒性和人工复核的严谨性提出了较高要求。
常用场景
经典使用场景
在大型语言模型的研发与优化过程中,高质量推理数据的匮乏始终是制约模型性能跃升的关键瓶颈。bas95_filtered数据集正是为应对这一挑战而精心打造的纯净推理语料库,其最经典的使用场景是作为监督微调的核心训练数据,用于增强语言模型的链式思维推理能力。该数据集收录了来自Claude Opus 4.7的逾八千条完整推理链,每条样本均以多轮对话格式呈现,系统提示、用户指令与助手推理步骤清晰分明。研究者将其应用于QLoRA等参数高效微调框架,通过蒸馏顶级模型的推理逻辑来提升开源模型的思维链生成水平,从而在不依赖庞大数据量的前提下实现推理能力的高效迁移与强化。
衍生相关工作
bas95_filtered的发布直接催生了一系列重要的衍生研究与实践工作。最直接的成果是huihui-qwen3.6-27b-reasoning-lora-bas95模型的诞生,该项目利用该数据集对Qwen3.6-27B模型进行QLoRA微调,成功地将Claude Opus 4.7的推理模式蒸馏到开源模型中,验证了极少量高质量推理数据即可带来显著的推理能力提升。这一成功范式启发了后续研究者探索数据质量筛选策略,衍生出基于困惑度过滤、自洽性验证等多种推理链精选方法,并推动了面向数学证明、逻辑谜题、程序合成等垂直领域的推理专用数据集构建。这些工作共同勾勒出一条清晰的技术路径:从顶级模型蒸馏推理链,经精细过滤后用于微调,最终实现推理能力在不同模型架构间的规模化迁移。
数据集最近研究
最新研究方向
在大语言模型推理能力蒸馏与对齐优化领域,bas95_filtered数据集代表了当前前沿的精细化数据筛选与高质量思维链蒸馏方向。该数据集源自Claude Opus 4.7的推理链蒸馏产物,经过严格的无拒答过滤验证,确保100%的推理链纯净度,为研究者提供了零拒答干扰的优质训练素材。结合近期热点——开源模型通过蒸馏闭源前沿模型(如Claude、GPT系列)的推理过程以提升自身复杂推理能力,该数据集直接支撑了基于Qwen3.6-27B的QLoRA微调实践,推动了轻量化、高性价比的推理增强技术发展。其意义在于:一方面验证了自动化数据清洗代理(如Hermes Agent)在构建无偏数据集中的有效性,另一方面为探索模型在长链推理、逐步思考等任务中的极限表现提供了可靠基准,助力开源社区缩小与闭源模型在推理深度上的鸿沟。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作