SYNTH

Hugging Face2025-11-11 更新2025-11-12 收录

下载链接：

https://huggingface.co/datasets/PleIAs/SYNTH

下载链接

链接失效反馈

官方服务：

资源简介：

SYNTH是一个由Pleias和AI Alliance联合发布的第一开放通用合成数据集，用于训练小型推理模型。该数据集包含79,648,272个独立文本样本，超过41亿个单词。它基于58,698篇经过Wikipedia社区精选的Wikipedia文章，并通过Wikimedia Enterprise的Structured Wikipedia数据集实现。SYNTH的特点在于完全开放、适用于小型模型的最佳状态、数据高效、设计用于推理以及多样化。数据集还包括多语言支持，目前涵盖英语和其他欧洲语言。数据集的构成包括经过精心挑选的Wikipedia核心文章、专业文章、教科书和内部文档，并通过特定的合成管道进行放大。它旨在支持小型推理模型的数据高效训练，并提供了一个可重用的通用基础数据集。

SYNTH is the first open-source general synthetic dataset jointly released by Pleias and AI Alliance, designed for training small-scale inference models. This dataset contains 79,648,272 independent text samples, totaling over 4.1 billion words. It is based on 58,698 Wikipedia articles curated by the Wikipedia community, and is constructed using the Structured Wikipedia dataset provided by Wikimedia Enterprise. SYNTH is characterized by being fully open-source, optimized for small-scale models, data-efficient, purpose-built for inference, and diverse. The dataset also offers multilingual support, currently covering English and other European languages. It consists of carefully curated core Wikipedia articles, specialized articles, textbooks and internal documents, which are then scaled up via a dedicated synthetic data pipeline. It aims to support data-efficient training of small-scale inference models, and provides a reusable general-purpose foundational dataset.

创建时间：

2025-11-10

原始信息汇总

SYNTH数据集概述

数据集基本信息

名称：SYNTH - generalist open data and environment
数据量：79,648,272个文本样本，包含超过410亿单词（约750亿个token）
语言：英语（80%）、法语、德语、意大利语、西班牙语、波兰语、荷兰语和拉丁语
许可证：cdla-permissive-2.0
任务类别：文本生成、零样本分类、摘要
规模分类：10M<n<100M

核心特征

完全开放：基于开放许可证（CC-By-SA）的种子文本生成
技术先进：在3.5亿参数以下的小模型上达到最先进水平
数据高效：仅需1000-2000亿token即可获得最佳结果
推理设计：所有生成答案都附带中间推理痕迹
多样性：涵盖检索增强生成、创意写作、算术、信息提取等多种用例
多语言：约20%文本为非英语的欧洲语言

数据集设计

知识扩增

基于58,698篇维基百科文章的扩增：

核心文章：维基百科社区精选的50,000篇重要文章
专业文章：8,698篇强化特定领域覆盖的文章
教科书：3,727页Wikibooks烹饪内容
近期/自我知识：130篇内部手工制作的文本

合成练习类型

算术
创意写作
检索增强生成

数据集结构

字段	类型	描述
synth_id	string	每个生成样本的唯一合成标识符
language	string	文本样本的语言
exercise	string	合成练习类型
model	string	用于生成合成样本的微调模型
query	string	反向翻译的查询
query_seed_url	string	用于查询生成的维基百科或Wikibooks章节URL
query_seed_text	string	用于查询生成的扩展文本种子
additional_seed_url	string	可选附加种子URL
seed_license	string	种子文本许可证
constraints	string	应用于答案生成的约束条件
script	string	定义合成练习结构的内部模板或脚本标识符
synthetic_reasoning	string	生成的推理草稿
synthetic_answer	string	与查询对应的最终生成答案或输出
words	int64	完整生成文本样本的字数统计

使用场景

直接用途

小型推理模型的预训练
现有模型的中期训练/微调
研究/可解释性实验

范围外用途

代码生成
全球多语言支持
大型模型训练

数据来源

结构化维基百科：直接使用维基媒体基金会提供的转储
Wikibooks：通过官方维基媒体API提取
Pleias内部文档：主要是模型自我文档和一些更新信息

风险与限制

基于西方美国/欧洲文化视角选择
维基百科贡献和编辑存在结构性偏见
由于系统性的维基百科基础，数据呈现极低的有毒或问题内容风险

搜集汇总

数据集介绍

构建方式

在知识工程领域，SYNTH数据集采用创新的合成扩增技术构建而成。该数据集以维基百科核心条目为知识基底，通过结构化处理与多轮语义扩增，将原始文本转化为包含推理轨迹的合成样本。构建过程采用分阶段策略：首先从5.8万篇维基百科核心条目中提取语义完整的段落单元，继而通过约束生成机制产生多样化查询指令，最终利用专用模型生成带有中间推理步骤的合成答案。这种基于知识图谱的递进式扩增方法，确保了数据在保持语义一致性的同时实现百倍规模扩展。

使用方法

该数据集主要服务于小型推理模型的全流程训练。使用者可直接将其作为预训练语料，通过约千亿token的迭代即可达到当前最优性能。在具体应用中，研究人员可依据synth_id字段实现样本追溯，通过exercise字段筛选特定任务类型，利用synthetic_reasoning字段分析模型推理过程。对于已有模型的中间训练阶段，建议优先采用创意写作和算术类任务进行能力强化。需要注意的是，该数据集当前版本未包含代码生成任务，且主要支持欧洲语系的多语言处理。

背景与挑战

背景概述

SYNTH数据集由法国人工智能研究机构Pleias与AI联盟于2024年联合发布，作为首个面向小参数推理模型训练的全开放通用合成数据集。该数据集以维基百科核心条目为知识基底，通过结构化增强技术生成包含七千九百余万文本样本的语料库，涵盖数学推理、创意写作、跨语言检索等多元任务。其创新性体现在采用可追溯的开放许可种子文本，构建包含中间推理轨迹的全新语法体系，为小规模模型的认知能力演进提供了可复现的研究基础。

当前挑战

在解决小参数模型多任务推理这一核心问题时，SYNTH需克服语义连贯性与负样本平衡的双重挑战：既要确保算术推导与创意写作等异质任务间的逻辑一致性，又需通过约束生成控制幻觉现象。数据构建过程中面临种子文本选择偏差的困境，尽管以维基百科核心条目为基底，仍存在欧美文化视角主导的知识覆盖局限。多语言支持目前仅限八种欧洲语系，且合成管道的复杂度限制了代码生成等垂直领域的扩展。

常用场景

经典使用场景

在知识增强型人工智能领域，SYNTH数据集通过其精心设计的合成推理轨迹与多语言知识架构，为小型推理模型的端到端训练提供了理想范本。该数据集融合了算术运算、创意写作及信息抽取等多样化任务，其核心价值在于通过结构化推理链引导模型逐步构建逻辑思维能力，这种设计使得模型在有限参数规模下仍能展现出接近人类认知路径的复杂问题解决能力。

解决学术问题

该数据集有效应对了当前小参数模型训练中知识覆盖度不足与推理能力薄弱的学术挑战。通过基于维基百科核心知识的百倍级语义扩增，SYNTH构建了包含410亿词汇量的知识体系，显著提升了模型在MMLU等基准测试中的表现。其创新性的中间推理轨迹标注机制，为解释性人工智能研究提供了可追溯的认知路径分析素材，推动了小规模模型认知机理的深入研究。

实际应用

在实际部署层面，SYNTH支持的知识增强型小模型可广泛应用于移动端智能助手与边缘计算场景。其多语言特性覆盖英语、法语等八种欧洲语言，使得训练后的模型能胜任跨语言知识检索、教育辅助系统等实际任务。特别在需要实时推理的工业自动化领域，该数据集训练的模型展现出卓越的能耗效率与响应速度，为资源受限环境下的AI部署提供了新范式。

数据集最近研究