five

qvac/GenesisII

收藏
Hugging Face2025-12-17 更新2026-01-03 收录
下载链接:
https://hf-mirror.com/datasets/qvac/GenesisII
下载链接
链接失效反馈
官方服务:
资源简介:
QVAC Genesis II是一个教育领域的大型合成数据集,主要用于大型语言模型(LLM)的预训练和推理中心的后训练。作为Genesis I的扩展版本,它新增了10个教育领域,并引入了新的选项级推理分析方法。数据集包含86百万样本和1070亿标记,结合Genesis I的总量达到1480亿标记。数据集采用了双方法管道:失败分析(针对模型回答错误的问题)和选项级推理分析(针对模型回答正确的问题),用于最大化问题利用率。数据集涵盖了多个STEM领域,如天文学、大学化学、大学计算机科学、大学物理、计量经济学、电子科学、地理、高中化学、高中计算机科学、高中统计学和机器学习。

QVAC Genesis II is a large-scale synthetic dataset focused on the educational domain, primarily used for pre-training large language models (LLMs) and reasoning-centric post-training. As an expansion of Genesis I, it adds 10 new educational domains and introduces a novel Option-Level Reasoning Analysis method. The dataset contains 86 million samples and 107 billion tokens, bringing the combined total with Genesis I to 148 billion tokens. It employs a dual-method pipeline: Failure Analysis (for questions the model answers incorrectly) and Option-Level Reasoning Analysis (for questions answered correctly), maximizing question utilization. The dataset covers various STEM fields including Astronomy, College Chemistry, College Computer Science, College Physics, Econometrics, Electronic Science, Geography, High School Chemistry, High School Computer Science, High School Statistics, and Machine Learning.
提供机构:
qvac
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作