MIXTURE
收藏arXiv2025-10-23 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/lucadiliello/english_wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
MIXTURE是一个基于维基百科的指令蒸馏数据集,包含约144,884个样本,跨越五个任务类型,提供从多个低质量输入到单个高质量输出的层次映射。数据集创建过程包括从维基百科收集原始数据,生成高、低质量数据对,并通过LLM评分、多变种退化、跨主题融合和噪声注入等方式构建数据集。该数据集旨在解决低质量数据在指令微调中的有效利用问题,通过蒸馏和增强低质量数据,提高指令微调LLMs的效率和性能。
MIXTURE is a Wikipedia-based instruction distillation dataset comprising approximately 144,884 samples across five task types, which provides a hierarchical mapping from multiple low-quality inputs to a single high-quality output. The dataset construction process includes collecting raw data from Wikipedia, generating high-quality and low-quality data pairs, and building the dataset via methods such as LLM-based scoring, multi-variant degradation, cross-topic fusion, and noise injection. This dataset aims to solve the problem of effective utilization of low-quality data in instruction fine-tuning, and improves the efficiency and performance of instruction-fine-tuned LLMs by distilling and augmenting low-quality data.
提供机构:
香港科技大学(广州)
创建时间:
2025-10-23
原始信息汇总
数据集概述
基本信息
- 数据集名称: english_wikipedia
- 存储位置: https://huggingface.co/datasets/lucadiliello/english_wikipedia
- 数据格式: 结构化文本
数据特征
- 字段构成:
- filename: 文件名(字符串类型)
- maintext: 正文内容(字符串类型)
- source_domain: 来源域名(字符串类型)
- title: 标题(字符串类型)
- url: 网页地址(字符串类型)
数据规模
- 训练集:
- 样本数量: 4,184,712条
- 数据大小: 10,569,005,563字节
- 下载大小: 6,144,953,788字节
- 总数据集大小: 10,569,005,563字节
数据来源
- 内容类型: 英文维基百科文本数据
- 结构特征: 包含网页元数据和正文内容
搜集汇总
数据集介绍

构建方式
MIXTURE数据集的构建采用了系统化的多阶段流程,以维基百科条目为原始语料基础。首先通过段落分割技术将长文档处理为语义连贯的文本块,随后利用提示工程驱动的大语言模型生成五大任务类型的高质量样本,包括问答对、真假判断、段落生成、多项选择和类别陈述。针对每个高质量样本,通过可控降质处理生成2至20个语义保留但信息密度降低的变体,并引入跨主题融合与噪声注入机制增强数据多样性,最终形成包含14.4万实例的层次化映射结构。
特点
该数据集的核心特征体现在其独特的指令蒸馏范式设计,通过构建从多源低质量输入到单一高质量输出的映射关系,有效解决了传统数据增强方法对低质量数据利用不足的痛点。数据分布涵盖正常、跨主题和噪声变体三种模式,且每个高质量样本均配备链式思维监督信号,既保证了任务类型的多样性又强化了推理过程的透明性。其层次化结构使模型能够学习信息聚合与逻辑补全能力,为语言模型对齐提供了更丰富的数据支撑。
使用方法
数据集适用于指令蒸馏任务的模型训练与评估,具体可通过三阶段流程实现高效利用:首先基于监督微调使模型掌握基础的信息融合能力,继而采用分组相对策略优化算法进行强化学习,通过质量奖励、语义对齐奖励和格式合规奖励的多维度信号联合优化生成质量。下游应用时可结合容量约束聚类方法自动收集低质量输入,仅需约3%的数据量即可达到全量训练效果,显著提升语言模型在开放域基准测试中的表现。
背景与挑战
背景概述
MIXTURE数据集于2025年由香港科技大学(广州)等机构的研究团队创建,旨在解决大语言模型指令调优中低质量数据利用率低的核心问题。该数据集基于维基百科构建,包含14.4万条样本,涵盖问答对、段落生成等五种任务类型,通过层次化映射将冗余或低质量输入聚合为高质量输出。其创新性在于首次系统化定义了指令蒸馏任务,推动数据驱动人工智能从规模优先转向质量优先的研究范式转变,显著提升了低质量数据在模型对齐中的价值。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需突破传统数据增强方法对低质量文本信息密度提升的局限,解决指令蒸馏中语义一致性保持与格式规范的平衡难题;在构建过程中,需克服多源低质量样本的语义冲突消解、跨主题数据融合的连贯性控制,以及噪声注入与数据保真度的权衡问题,同时需设计自动化质量评估体系以替代高成本人工标注。
常用场景
经典使用场景
在大型语言模型指令调优领域,MIXTURE数据集通过构建低质量指令簇与高质量蒸馏结果的配对映射,为数据增强研究提供了标准化实验平台。该数据集支持从多源噪声输入到信息密集输出的转换任务,使研究者能够系统评估模型在信息聚合、语义对齐和格式合规性方面的表现。其层次化数据结构特别适用于训练模型从冗余或残缺的指令中提炼核心知识,为提升语言模型的数据利用效率奠定了坚实基础。
实际应用
该数据集在工业级语言模型优化中展现出重要价值,其蒸馏机制可直接应用于真实场景中的用户指令清洗与增强。通过将散乱的用户查询融合为结构清晰的指令,能显著提升客服系统、教育助手等应用的响应质量。在数据预处理环节,采用基于MIXTURE训练的模型可将原始语料库的噪声数据转化为高质量训练样本,使企业能够充分利用现有数据资源,大幅降低数据标注成本并提升模型迭代效率。
衍生相关工作
基于MIXTURE数据集发展的LM-Mixup方法催生了系列创新研究,其多维度奖励机制与GRPO优化框架为数据增强技术提供了新范式。相关工作扩展了混合增强在文本领域的应用边界,如结合课程学习的渐进式蒸馏策略、面向多模态数据的跨模态混合技术等。这些衍生工作共同推动了噪声数据价值挖掘的理论深度,建立了从数据修复到知识蒸馏的完整技术链条,为低资源场景下的模型优化提供了可复现的解决方案。
以上内容由遇见数据集搜集并总结生成



