Loong Seed Datasets
收藏github2025-04-02 更新2025-04-01 收录
下载链接:
https://github.com/camel-ai/loong
下载链接
链接失效反馈官方服务:
资源简介:
一个包含3,551个问题的种子数据集集合,涵盖8个不同领域:高等数学、高等物理、计算生物学、金融、图论与离散数学、逻辑、数学编程、安全与保障。每个数据点包括问题、最终答案、理由(通常是代码)和元数据。
A seed dataset collection containing 3,551 questions covering 8 distinct domains: Advanced Mathematics, Advanced Physics, Computational Biology, Finance, Graph Theory and Discrete Mathematics, Logic, Mathematical Programming, and Security and Safeguarding. Each data point consists of a question, a final answer, a rationale (usually code), and metadata.
创建时间:
2025-03-27
原始信息汇总
Loong Project 数据集概述
📌 数据集基本信息
- 项目名称: Loong Project
- 目标: 探索具备推理能力的模型是否可以通过生成合成数据从小规模高质量种子数据集中自我提升
- 主要内容:
- 种子数据集(真实、人工审核的数据)
- 模块化脚本(用于合成数据生成、验证和RL训练循环)
📂 数据集结构
/data/
- 数据类型: 种子数据集
- 结构: 按领域划分,每个数据点包含以下字段:
questionfinal_answerrationale(通常为代码)metadata(许可证、来源、领域、难度、标签等)
- 验证方式: 通过执行代码并比较输出与已知答案进行自动评估
📊 数据集统计
- 总问题数: 6,255
- 覆盖领域: 11个
各领域问题数量
- 🧮 Advanced Math: 1,615
- ⚛️ Advanced Physics: 434
- 🎲 Board Games: 926
- 🧬 Computational Biology: 304
- 💹 Finance: 320
- 📈 Graph & Discrete Math: 179
- � Logic: 110
- 📐 Mathematical Programming: 68
- 🩺 Medicine: 1,193
- 💻 Programming: 585
- 🔒 Security & Safety: 521
📂 数据文件
- 合并文件:
data/all_seed_dataset.json - 独立文件: 各领域数据集存放在对应文件夹中
🛠 工具脚本
/cookbooks/
- 功能:
- 从种子数据中进行少样本提示
- 生成合成问题、推理和答案
- 运行验证器
- 导出数据集用于监督微调或RL
📜 许可信息
- 代码许可: LICENSE
- 数据许可: 各数据集
metadata.json中单独声明
👥 维护团队
- 主导团队: CAMEL
- 贡献者: 开源AI研究社区成员
搜集汇总
数据集介绍

构建方式
在人工智能领域,高质量种子数据集对模型推理能力的培养至关重要。Loong Seed Datasets通过精心筛选来自数学、物理、金融等11个可计算领域的人类验证数据构建而成。每个数据点包含问题、最终答案、推理过程(通常为代码)和元数据四部分,其中元数据涵盖许可协议、来源、领域、难度等级等多维信息。数据集采用模块化结构设计,支持通过执行代码验证推理结果的自动评估机制,确保数据质量的可验证性。
特点
该数据集最显著的特点在于其领域覆盖的广度和深度,共收录6,255个问题,涵盖高等数学、计算生物学、医疗等11个专业领域。每个数据条目不仅提供标准答案,更包含可执行的推理代码,这种结构化设计使数据集兼具机器可读性与学术研究价值。数据集的元数据系统采用多维度标注体系,支持按领域、难度等要素进行精细化检索和分析,为后续的合成数据生成和强化学习训练提供可靠的基础支撑。
使用方法
研究者可通过仓库中的统一文件'all_seed_dataset.json'快速获取全部数据,或按领域目录访问特定数据集。配套的Cookbooks模块提供现成的脚本工具,支持从种子数据生成合成问题、验证模型输出等完整工作流。使用过程中需注意各数据集独立的许可协议,元数据中详细记载了每项数据的来源和使用限制。对于希望扩展数据集的研究者,项目提供了标准化的贡献指南,支持新领域数据的验证与集成。
背景与挑战
背景概述
Loong Seed Datasets是由CAMEL团队主导的一项创新性研究项目,旨在探索具备推理能力的模型能否通过高质量的小规模种子数据集生成合成数据,并验证大型语言模型(LLM)代理的响应。该项目创建于开源AI研究社区蓬勃发展的背景下,汇集了数学、物理、金融等11个可计算领域的6,255个经过人工审核的问题。每个数据点包含问题、最终答案、推理过程(通常为代码)及元数据,支持通过执行代码自动验证答案的正确性。这一数据集为研究如何利用种子数据引导模型自我提升提供了重要基础,对推动可解释AI和自动化推理领域的发展具有显著意义。
当前挑战
Loong Seed Datasets面临的挑战主要体现在两个方面:领域问题的复杂性与数据构建的严谨性。在领域问题方面,数据集涵盖数学、物理、生物等多学科的高难度问题,要求模型不仅具备跨领域知识整合能力,还需精确执行代码验证推理结果,这对现有模型的泛化与推理能力提出了极高要求。在数据构建过程中,确保种子数据的质量与多样性是关键挑战,需平衡人工审核的严谨性与数据规模的扩展性。此外,合成数据的生成与验证流程需设计可靠的自动化机制,以避免错误累积并维持数据的内在一致性。
常用场景
经典使用场景
在人工智能领域,Loong Seed Datasets以其高质量、多样化的种子数据集成为模型自举研究的基准工具。该数据集特别适用于探索大语言模型通过合成数据自我提升的机制,研究者常利用其数学、物理、编程等11个领域的结构化数据,构建从少量真实样本到海量合成数据的迭代训练流程。其包含的问题、答案及代码形式的逻辑推演链,为可验证的自动推理任务提供了标准化实验框架。
实际应用
在金融风险建模与医疗诊断辅助系统中,该数据集展现出独特价值。投研机构可基于其金融问题集构建量化策略验证管道,医疗机构则利用包含1193个医学问题的子集训练诊断推理模型。所有数据点均配备可执行验证的特性,使得生成式AI在关键领域的输出可靠性得到实质性提升。
衍生相关工作
该数据集已催生多项突破性研究,包括CAMEL团队开发的合成数据生成框架和基于强化学习的验证系统。开源社区据此构建了跨领域推理评估基准LoongBench,而‘问题-代码-答案’三元组结构更成为后续医疗AI数据集(如MedQA)的设计蓝本,推动了可验证AI研究范式的标准化进程。
以上内容由遇见数据集搜集并总结生成



