five

PleIAs/SYNTH

收藏
Hugging Face2026-05-06 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/SYNTH
下载链接
链接失效反馈
官方服务:
资源简介:
SYNTH是一个由Pleias和AI Alliance共同发布的第一开放通用合成数据集,旨在为小型推理模型提供端到端的训练。该数据集由79,648,272个独立文本样本组成,包含超过41亿个单词。它基于58,698篇Wikipedia文章的放大版,并使用了来自Wikimedia Enterprise的Structured Wikipedia数据集。SYNTH的特点是全开放、适用于小型模型的最先进技术、数据高效、设计用于推理、多样化以及多语言支持。

SYNTH is the first open generalist synthetic dataset for training small reasoning models end-to-end, jointly released by Pleias and the AI Alliance. It consists of 79,648,272 individual text samples, covering over 4.1 billion words, based on the amplification of 58,698 articles from Wikipedia using the Structured Wikipedia dataset from Wikimedia Enterprise. SYNTH is characterized by being fully open, state of the art for small models, data efficient, designed for reasoning, diverse, and multilingual.
提供机构:
PleIAs
搜集汇总
数据集介绍
main_image_url
构建方式
SYNTH数据集以维基百科社区遴选的50000篇核心文章(Wikipedia:Vital articles level 5)为基石,辅以8698篇专业领域文章、3727篇Wikibooks烹饪教材及130篇内部定制文本,构建起多源化的记忆基座。在此基础上,利用创新的合成流水线,对原始文本进行章节级切分,并随机生成带有风格与结果约束的查询,实现每篇种子内容至少百倍的扩增,最终产出逾41亿词、79.6百万条样本的大规模语料。
特点
SYNTH数据集具备六大核心特质:完全开放,种子文本与生成模型均遵循开放许可,确保可再现性;数据高效,仅需1000-2000亿tokens即可训练出性能卓越的轻量模型;内建推理,所有答案均附带全新的推理轨迹语法;多样性涵盖检索增强生成、创意写作、算术推理等多元任务;多语言支持,约20%的文本来自英语外的八种欧洲语言;且专为3.5亿参数以下的小模型优化,在MMLU等基准测试中达到当前最优。
使用方法
SYNTH可直接用于小推理模型的端到端预训练,其高效的收敛特性使得仅需百亿tokens即可逼近现有最优性能;亦适用于中间训练或微调现有模型,如Pleias-350m的已有成功案例;同时凭借其完全开放与数据可解释性,成为研究模型记忆机制、技能获取等的理想资源。当前版本暂不支持代码生成、全局多语言覆盖及大模型训练,但作为动态资源,未来将逐步拓展这些能力。
背景与挑战
背景概述
SYNTH数据集由Pleias与AI Alliance于近期联合发布,旨在为小型推理模型提供端到端训练所需的首个开源通用合成数据集。其核心研究问题在于如何通过数据高效的方式,在有限参数规模下激发模型的推理能力,从而弥合开源社区在高质量训练数据方面的关键缺口。该数据集基于维基百科社区精选的约五万篇核心文章(Wikipedia:Vital Articles)作为知识种子,并通过创新的合成管道进行百倍以上的扩增,最终生成近八千万条文本样本,涵盖英语及七种欧洲语言。SYNTH的发布标志着合成数据在开源AI发展中的重要里程碑,其开放的许可和可复现的流程为小型模型的研究与应用提供了坚实基础,对推动主权AI模型和高级智能体的发展具有深远影响。
当前挑战
SYNTH数据集所应对的挑战首先来源于领域问题:小型模型(参数低于3.5亿)在缺乏大规模训练数据时,难以同时兼顾通用知识覆盖与推理能力的培养,现有开源数据集往往在数据效率、多语言支持和推理轨迹显式建模上存在不足。其次,构建过程中面临多重挑战:如何从维基百科海量条目中筛选出高信息密度的种子文本,并确保知识覆盖的均衡性;如何设计高效的合成管道以在数据扩增时避免引入噪音或幻觉;以及如何生成多样化的推理型练习(如算术、创意写作、信息提取等),并确保不同语言版本间的生成质量一致。这些挑战的解决,使得SYNTH在数据规模、开放性与推理优化之间取得了精心平衡。
常用场景
经典使用场景
SYNTH作为首个完全开放的通才型合成数据集,其经典使用场景聚焦于端到端训练小型推理模型。该数据集基于维基百科核心文章与结构化知识图谱,经过百倍以上扩增生成超过410亿词汇的文本样本,涵盖算术推理、创造性写作、信息抽取等多样化任务。每项生成答案均附带新颖的推理轨迹语法,使模型在训练中同步习得逐步推理能力。在低于3.5亿参数的小型模型上,SYNTH展现出数据效率优势,仅需1000-2000亿token即可达到当前最优性能,为资源受限环境下的模型开发提供了全新范式。
衍生相关工作
SYNTH的发布催生了多项开创性研究工作。其底层的扩增式知识记忆核心与RAG应用启发的查询生成策略,为合成数据工程提供了可复现的技术框架。AI Alliance与Pleias团队基于该数据集训练的Pleias-350M模型,已成为小型推理模型研究的标杆基准。后续工作延伸至专门化领域,如在结构化维基百科基础上衍生出面向代码生成、长期记忆增强等新型合成管道。数据集本身的开放性还促进了模型记忆机制与技能获取过程的可解释性研究,为探索语言模型内部表征与训练动态提供了标准化实验平台。
数据集最近研究
最新研究方向
SYNTH作为首个完全开放的通用合成数据集,代表了小型推理模型训练范式的革新。该数据集通过从维基百科核心条目(Vital Articles)中选取约5万篇种子文本,结合RAG启发的合成流水线进行百倍扩增,生成了逾410亿词的高质量语料。其前沿性体现在采用设计驱动的推理轨迹嵌入(reasoning-by-design)替代传统标注,在算术推理、创意写作、信息抽取等任务中展现出优异效能,尤其针对3.5亿参数以下的小模型,仅需1000-2000亿token即可达到当前最优水平。这一突破有效解决了开源社区因缺乏高质量合成数据而制约主权AI模型研发的瓶颈,为可复现、数据高效的模型预训练开辟了新路径,同时通过多语言支持(涵盖8种欧洲语言)和全子任务覆盖,推动了通用人工智能的民主化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作