SYNTHQUESTIONS
收藏arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/Ignoramus0817/SynthQuestions
下载链接
链接失效反馈官方服务:
资源简介:
SYNTHQUESTIONS数据集是由中国科学技术大学和Metastone Technology合作构建的,包含100万条经过精心设计和合成的用户指令。该数据集通过一种称为“属性接地”的新颖框架生成,该框架结合了自顶向下的属性过程和自底向上的合成过程,以确保生成的指令既多样化又复杂,能够有效提升大型语言模型的理解和推理能力。数据集的创建过程首先收集了大量真实的人类指令,并进行了严格的清洗和去重,然后利用这些指令作为种子,通过先进的语言模型生成多样化的指令。该数据集在多个基准测试中表现出领先性能,显示出其在提升大型语言模型理解和推理能力方面的巨大潜力。
SYNTHQUESTIONS Dataset is co-constructed by the University of Science and Technology of China and Metastone Technology, comprising 1,000,000 meticulously designed and synthesized user instructions. This dataset is generated through a novel framework named "attribute grounding", which integrates top-down attribute processing and bottom-up synthesis procedures to ensure the generated instructions are both diverse and sophisticated, effectively enhancing the comprehension and reasoning capabilities of large language models. The development pipeline of this dataset first collects a large corpus of real human instructions, followed by strict cleaning and deduplication. Subsequently, these collected instructions are utilized as seeds to generate diverse instructions via state-of-the-art language models. This dataset has demonstrated leading performance across multiple benchmark tests, showcasing its significant potential in enhancing the comprehension and reasoning abilities of large language models.
提供机构:
中国科学技术大学, Metastone Technology
创建时间:
2025-06-04
原始信息汇总
SynthQuestions数据集概述
基本信息
- 数据集名称:SynthQuestions
- 关联论文:《From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding》
数据集特点
- 数据生成方式:合成生成
- 数据规模:数百万条
- 数据特征:多样化且复杂的用户指令
- 特殊属性:带有属性标注的基础信息
当前状态
- 项目处于未完成状态(标注"WILL BE COMPLETED SOON")
搜集汇总
数据集介绍

构建方式
SYNTHQUESTIONS数据集的构建采用了创新的‘属性锚定’框架,包含自上而下的属性归因和自下而上的合成两个核心流程。研究团队首先从7个主流人工标注指令数据集中筛选出29,000条高质量指令构成REALQUESTIONS种子集,通过LLaMA-3-70B模型提取关键概念并检索相关网页文档,进而构建包含用户画像、行为动机的立体化场景。在合成阶段,基于FineWeb和MathPILE等多样化语料,采用情境模拟引导的上下文学习方法批量生成复杂指令,最终通过主题建模和评分筛选形成百万量级数据集。
使用方法
该数据集专为大规模语言模型对齐训练设计,建议采用两阶段使用策略:首先基于完整数据集进行监督微调(推荐3个epoch,学习率2e-5),随后可对100K子集进行DPO偏好优化(学习率0.7e-6)。实验表明,LLaMA-3-8B模型经SYNTHQUESTIONS训练后在Alpaca Eval 2.0评估中胜率达19.15%,超越10倍数据量的MAmmoTH2基准。对于领域适配需求,可优先选用包含特定主题标签(如#technical/#creative)的指令子集,并建议配合4.3%安全过滤模块使用以确保合规性。
背景与挑战
背景概述
SYNTHQUESTIONS是由中国科学技术大学与Metastone Technology的研究团队于2025年6月推出的百万规模指令数据集,旨在解决大语言模型(LLMs)对齐训练中高质量指令数据稀缺的核心问题。该数据集通过创新的“属性锚定”框架,将真实指令与网络文档、用户情境及行为动机进行双向关联,突破了传统合成数据在多样性和复杂性上的局限。作为当前规模最大的开源指令数据集之一,其在Alpaca Eval 2.0等基准测试中展现出超越10倍规模数据集的性能表现,推动了指令微调技术从人工标注向自动化合成的范式转变。
当前挑战
领域挑战方面,SYNTHQUESTIONS需应对真实场景指令的三大核心难题:1)复杂推理任务的语义忠实性(如多步骤数学问题求解);2)跨领域知识的动态融合(如同时涉及编程与金融的复合指令);3)用户意图的细粒度解析(如隐含动机的准确识别)。构建挑战则体现在:1)网络文档质量参差导致的噪声过滤;2)用户-动机-文档三元组的结构化建模;3)百万级数据中4.32%有害内容的精准检测与剔除。这些挑战通过分层抽样算法和LLaMA-Guard安全过滤机制得到部分缓解,但长尾领域的覆盖不足仍是待解难题。
常用场景
经典使用场景
SYNTHQUESTIONS数据集在大规模语言模型(LLM)的对齐训练中扮演了关键角色。通过其合成的多样化、复杂化指令数据,研究人员能够有效地优化模型在理解和执行人类指令方面的能力。数据集广泛应用于监督微调(SFT)场景,帮助模型在开放性和封闭式任务中展现出卓越的泛化能力。
解决学术问题
该数据集解决了指令数据稀缺性和多样性不足的学术难题。传统方法依赖人工标注或简单合成,难以覆盖真实场景的复杂性。SYNTHQUESTIONS通过基于文档归因的合成框架,生成了兼具认知深度和现实基础的指令,显著提升了模型在Alpaca Eval 2.0和Arena Hard等基准测试中的表现,验证了复杂指令数据对模型能力提升的关键作用。
实际应用
在实际应用中,SYNTHQUESTIONS为智能客服、教育辅助和专业领域咨询等场景提供了优质训练数据。例如,基于该数据集训练的模型能够处理涉及多领域知识整合的用户查询,如医疗健康建议的生成、编程调试指导等复杂任务,显著降低了人工标注成本的同时保证了响应质量。
数据集最近研究
最新研究方向
在大型语言模型(LLM)对齐领域,SYNTHQUESTIONS数据集的最新研究方向聚焦于通过属性化接地(attributed grounding)技术生成多样化且复杂的指令数据。该技术采用自上而下的归因过程和自下而上的合成过程,将真实指令与具体用户情境及动机相关联,并利用海量网络文档生成具有现实基础的指令。当前研究热点包括:1)探索多模态文档(如数学、代码类文本)对提升模型复杂推理能力的贡献;2)研究指令规模扩展与模型性能间的非线性关系,实验表明模型在Alpaca Eval 2.0等基准测试上的表现随数据量增加持续提升;3)验证合成数据在偏好优化(DPO)中的潜力,使用SYNTHQUESTIONS训练的DPO模型性能超越原始数据生成模型。该数据集通过覆盖更广泛的语义空间(Vendi Score达77.19)和更高复杂度的指令分布(44.88%指令获Arena Hard满分),为突破人工标注数据的规模限制提供了新范式,其开源特性将进一步推动可解释对齐技术的研究。
相关研究论文
- 1From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding中国科学技术大学, Metastone Technology · 2025年
以上内容由遇见数据集搜集并总结生成



