GenesisI

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/qvac/GenesisI

下载链接

链接失效反馈

官方服务：

资源简介：

QVAC Genesis I是一个大规模的教育-focused合成数据集（40.9B tokens; 31.8M rows），旨在为LLM预训练和以推理为中心的后期训练而构建。它涵盖了从高中到大学/专业水平的数学、物理、生物、医学和逻辑推理等领域。数据通过一个可扩展的学习失败管道生成，包括种子、MCQs、模型回答、LLM-as-a-Judge提取和失败分析教育内容。

创建时间：

2025-10-20

原始信息汇总

QVAC Genesis I 数据集概述

基本信息

数据集名称: QVAC Genesis I
数据集标识: qvac-genesis-I
许可证: CC-BY-NC-4.0
语言: 英语
数据规模: 31,873,857行，40.9B tokens
类别: 10M<n<100M

数据集特点

类型: 合成数据
应用领域: 教育、STEM、预训练、推理、多项选择、失败分析、LLM作为评判者
任务: 语言建模、问答、多项选择

领域与级别分布

领域/级别	行数	Tokens (B)
高中生物	3,818,070	4.511
大学生物	3,286,648	3.927
专业医学	1,552,474	1.884
大学医学	5,164,247	6.218
高中数学	3,244,240	4.277
大学数学	5,895,052	8.243
高中物理	2,277,880	3.061
大学物理	4,281,062	5.814
概念物理	2,354,184	2.973
总计	31,873,857	40.9

数据生成流程

种子数据: 来自FineFineWeb STEM切片
MCQ生成: 使用QwQ-32B模型生成4个多项选择题
模型回答: 使用Qwen3-1.7B-Base模型回答
评判提取: LLM作为评判者进行答案提取
失败分析: 仅对错误案例生成4种风格的教学内容

内容风格

教科书风格
问答风格
网络文章风格
对话风格

数据配置

数据集按领域划分配置：

high_school_biology
college_biology
professional_medicine
college_medicine
high_school_mathematics
college_mathematics
high_school_physics
college_physics
conceptual_physics

评估结果

在MMLU教育领域测试中表现优于Cosmopedia
除大学物理外，在所有领域均表现更好
使用LLM作为评判者和对数似然两种评估方法

相关资源

主页：https://github.com/qvac-ai
代码库：https://github.com/qvac-ai/genesis-I
博客文章：https://huggingface.co/blog/qvac/genesis-i

搜集汇总

数据集介绍

构建方式

在构建GenesisI数据集的过程中，采用了基于失败分析的可扩展合成流程。首先从FineFineWeb的STEM领域切片中筛选高质量种子数据，随后利用QwQ-32B模型生成标准化的四选项选择题。通过Qwen3-1.7B基础模型进行答题模拟，借助LLM-as-a-Judge机制提取错误案例，最终由QwQ-32B将错误案例转化为包含教科书式、问答式、网络文章式和对话式四种教学风格的解析内容。整个流程经过质量分类器过滤、语义去重和一致性校验，确保生成数据的教育价值与逻辑严谨性。

使用方法

使用者可通过HuggingFace数据集库按领域划分加载数据，例如指定college_mathematics配置即可获取大学数学领域的训练样本。该资源主要适用于大规模语言模型的预训练与持续预训练阶段，特别适合作为STEM领域的课程学习材料。在应用过程中，建议根据难度层级进行数据切片，亦可作为后训练阶段的退火数据以弥补特定知识缺口。需要强调的是，对于临床医学等高风险领域，仍需配合专家验证以确保应用安全性。

背景与挑战

背景概述

在人工智能教育领域，高质量合成数据集的构建始终是推动模型发展的核心动力。QVAC Genesis I作为当前规模最大的教育导向合成数据集，由QVAC研究团队于2024年发布，其41B令牌容量覆盖数学、物理、生物、医学及逻辑推理等多学科领域。该数据集通过创新性的'学习失败'生成范式，将种子数据转化为包含四种教学风格的深度解析内容，显著提升了预训练模型在STEM领域的推理能力与知识掌握度，为开放模型追赶闭源模型性能树立了新的里程碑。

当前挑战

构建过程面临双重挑战：在领域问题层面，需突破传统合成数据在课程对齐性与教学深度上的局限，通过难度校准机制与多风格内容生成实现真正的教育价值；在技术实现层面，必须解决大规模MCQ生成的标签平衡、错误答案的 pedagogical 转化，以及基于LLM-as-a-Judge的答案提取一致性等关键难题。这些挑战的突破使得数据集在保持规模优势的同时，实现了对模型失败模式的精准诊断与修复。

常用场景

经典使用场景

在STEM教育领域的数据预处理工作中，GenesisI数据集通过其规模化的多领域教育合成数据，为语言模型的预训练提供了经典范例。该数据集覆盖数学、物理、生物、医学及逻辑推理等多个学科，采用精心设计的失败分析流程生成教材式文本、问答对、网络文章和对话四种教学风格内容，显著提升了模型在复杂学科问题上的推理能力。这种以课程对齐和教学深度为核心的数据构建方式，为教育科技领域的模型优化树立了新标杆。

解决学术问题

该数据集有效解决了当前教育型合成数据稀缺的核心学术难题，通过课程对齐的难度控制机制与教学解释增强策略，显著缩小了开放模型与闭源模型在STEM任务上的性能差距。其创新的失败分析范式能够精准定位模型认知薄弱环节，为推理能力建模提供了可解释的数据支撑。这种基于教育心理学原理的数据构建方法，为人工智能教育应用的可靠性验证提供了重要实验基础。

实际应用

在实际教育科技场景中，该数据集已成为智能辅导系统与自适应学习平台的核心训练资源。其结构化的学科分级体系支持从高中到专业阶段的课程定制，被广泛应用于在线教育的内容生成引擎和学术能力评估系统。医疗机构则利用其医学子集训练临床决策支持模型，而逻辑推理模块则为法律和金融领域的自动化分析工具提供了关键训练素材。

数据集最近研究