five

SYNTH

收藏
Hugging Face2025-11-11 更新2025-11-12 收录
下载链接:
https://huggingface.co/datasets/PleIAs/SYNTH
下载链接
链接失效反馈
官方服务:
资源简介:
SYNTH是一个由Pleias和AI Alliance联合发布的第一开放通用合成数据集,用于训练小型推理模型。该数据集包含79,648,272个独立文本样本,超过41亿个单词。它基于58,698篇经过Wikipedia社区精选的Wikipedia文章,并通过Wikimedia Enterprise的Structured Wikipedia数据集实现。SYNTH的特点在于完全开放、适用于小型模型的最佳状态、数据高效、设计用于推理以及多样化。数据集还包括多语言支持,目前涵盖英语和其他欧洲语言。数据集的构成包括经过精心挑选的Wikipedia核心文章、专业文章、教科书和内部文档,并通过特定的合成管道进行放大。它旨在支持小型推理模型的数据高效训练,并提供了一个可重用的通用基础数据集。

SYNTH is the first open-source general synthetic dataset jointly released by Pleias and AI Alliance, designed for training small-scale inference models. This dataset contains 79,648,272 independent text samples, totaling over 4.1 billion words. It is based on 58,698 Wikipedia articles curated by the Wikipedia community, and is constructed using the Structured Wikipedia dataset provided by Wikimedia Enterprise. SYNTH is characterized by being fully open-source, optimized for small-scale models, data-efficient, purpose-built for inference, and diverse. The dataset also offers multilingual support, currently covering English and other European languages. It consists of carefully curated core Wikipedia articles, specialized articles, textbooks and internal documents, which are then scaled up via a dedicated synthetic data pipeline. It aims to support data-efficient training of small-scale inference models, and provides a reusable general-purpose foundational dataset.
创建时间:
2025-11-10
原始信息汇总

SYNTH数据集概述

数据集基本信息

  • 名称:SYNTH - generalist open data and environment
  • 数据量:79,648,272个文本样本,包含超过410亿单词(约750亿个token)
  • 语言:英语(80%)、法语、德语、意大利语、西班牙语、波兰语、荷兰语和拉丁语
  • 许可证:cdla-permissive-2.0
  • 任务类别:文本生成、零样本分类、摘要
  • 规模分类:10M<n<100M

核心特征

  • 完全开放:基于开放许可证(CC-By-SA)的种子文本生成
  • 技术先进:在3.5亿参数以下的小模型上达到最先进水平
  • 数据高效:仅需1000-2000亿token即可获得最佳结果
  • 推理设计:所有生成答案都附带中间推理痕迹
  • 多样性:涵盖检索增强生成、创意写作、算术、信息提取等多种用例
  • 多语言:约20%文本为非英语的欧洲语言

数据集设计

知识扩增

基于58,698篇维基百科文章的扩增:

  • 核心文章:维基百科社区精选的50,000篇重要文章
  • 专业文章:8,698篇强化特定领域覆盖的文章
  • 教科书:3,727页Wikibooks烹饪内容
  • 近期/自我知识:130篇内部手工制作的文本

合成练习类型

  • 算术
  • 创意写作
  • 检索增强生成

数据集结构

字段 类型 描述
synth_id string 每个生成样本的唯一合成标识符
language string 文本样本的语言
exercise string 合成练习类型
model string 用于生成合成样本的微调模型
query string 反向翻译的查询
query_seed_url string 用于查询生成的维基百科或Wikibooks章节URL
query_seed_text string 用于查询生成的扩展文本种子
additional_seed_url string 可选附加种子URL
seed_license string 种子文本许可证
constraints string 应用于答案生成的约束条件
script string 定义合成练习结构的内部模板或脚本标识符
synthetic_reasoning string 生成的推理草稿
synthetic_answer string 与查询对应的最终生成答案或输出
words int64 完整生成文本样本的字数统计

使用场景

直接用途

  • 小型推理模型的预训练
  • 现有模型的中期训练/微调
  • 研究/可解释性实验

范围外用途

  • 代码生成
  • 全球多语言支持
  • 大型模型训练

数据来源

  • 结构化维基百科:直接使用维基媒体基金会提供的转储
  • Wikibooks:通过官方维基媒体API提取
  • Pleias内部文档:主要是模型自我文档和一些更新信息

风险与限制

  • 基于西方美国/欧洲文化视角选择
  • 维基百科贡献和编辑存在结构性偏见
  • 由于系统性的维基百科基础,数据呈现极低的有毒或问题内容风险
搜集汇总
数据集介绍
main_image_url
构建方式
在知识工程领域,SYNTH数据集采用创新的合成扩增技术构建而成。该数据集以维基百科核心条目为知识基底,通过结构化处理与多轮语义扩增,将原始文本转化为包含推理轨迹的合成样本。构建过程采用分阶段策略:首先从5.8万篇维基百科核心条目中提取语义完整的段落单元,继而通过约束生成机制产生多样化查询指令,最终利用专用模型生成带有中间推理步骤的合成答案。这种基于知识图谱的递进式扩增方法,确保了数据在保持语义一致性的同时实现百倍规模扩展。
使用方法
该数据集主要服务于小型推理模型的全流程训练。使用者可直接将其作为预训练语料,通过约千亿token的迭代即可达到当前最优性能。在具体应用中,研究人员可依据synth_id字段实现样本追溯,通过exercise字段筛选特定任务类型,利用synthetic_reasoning字段分析模型推理过程。对于已有模型的中间训练阶段,建议优先采用创意写作和算术类任务进行能力强化。需要注意的是,该数据集当前版本未包含代码生成任务,且主要支持欧洲语系的多语言处理。
背景与挑战
背景概述
SYNTH数据集由法国人工智能研究机构Pleias与AI联盟于2024年联合发布,作为首个面向小参数推理模型训练的全开放通用合成数据集。该数据集以维基百科核心条目为知识基底,通过结构化增强技术生成包含七千九百余万文本样本的语料库,涵盖数学推理、创意写作、跨语言检索等多元任务。其创新性体现在采用可追溯的开放许可种子文本,构建包含中间推理轨迹的全新语法体系,为小规模模型的认知能力演进提供了可复现的研究基础。
当前挑战
在解决小参数模型多任务推理这一核心问题时,SYNTH需克服语义连贯性与负样本平衡的双重挑战:既要确保算术推导与创意写作等异质任务间的逻辑一致性,又需通过约束生成控制幻觉现象。数据构建过程中面临种子文本选择偏差的困境,尽管以维基百科核心条目为基底,仍存在欧美文化视角主导的知识覆盖局限。多语言支持目前仅限八种欧洲语系,且合成管道的复杂度限制了代码生成等垂直领域的扩展。
常用场景
经典使用场景
在知识增强型人工智能领域,SYNTH数据集通过其精心设计的合成推理轨迹与多语言知识架构,为小型推理模型的端到端训练提供了理想范本。该数据集融合了算术运算、创意写作及信息抽取等多样化任务,其核心价值在于通过结构化推理链引导模型逐步构建逻辑思维能力,这种设计使得模型在有限参数规模下仍能展现出接近人类认知路径的复杂问题解决能力。
解决学术问题
该数据集有效应对了当前小参数模型训练中知识覆盖度不足与推理能力薄弱的学术挑战。通过基于维基百科核心知识的百倍级语义扩增,SYNTH构建了包含410亿词汇量的知识体系,显著提升了模型在MMLU等基准测试中的表现。其创新性的中间推理轨迹标注机制,为解释性人工智能研究提供了可追溯的认知路径分析素材,推动了小规模模型认知机理的深入研究。
实际应用
在实际部署层面,SYNTH支持的知识增强型小模型可广泛应用于移动端智能助手与边缘计算场景。其多语言特性覆盖英语、法语等八种欧洲语言,使得训练后的模型能胜任跨语言知识检索、教育辅助系统等实际任务。特别在需要实时推理的工业自动化领域,该数据集训练的模型展现出卓越的能耗效率与响应速度,为资源受限环境下的AI部署提供了新范式。
数据集最近研究
最新研究方向
在自然语言处理领域,SYNTH数据集正推动小规模推理模型的前沿探索。该数据集通过结构化维基百科知识构建的合成训练范式,开创了多语言推理任务的系统性生成方法。其独特的中间推理轨迹标注机制为可解释性研究提供了新范式,特别是在算术推理与创造性写作的协同训练方面展现出突破性潜力。当前研究聚焦于如何利用其百倍知识放大策略优化模型数据效率,同时探索多语言检索增强生成任务中负样本约束对抑制幻觉现象的影响。这一开放数据集不仅填补了合成数据生态的空白,更为构建主权AI模型奠定了可复现的工程基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作