five

OpenThoughts-114k, OpenR1-Math-220k, GeneralThought-195K, SYNTHETIC-1, Natural-reasoning, Big-Math-RL-Verified, Chinese-DeepSeek-R1-Distill-data-110k, medical-o1-reasoning-SFT, Medical-R1-Distill-Data-Chinese

收藏
github2025-03-04 更新2025-03-24 收录
下载链接:
https://github.com/bespokelabsai/awesome-rl
下载链接
链接失效反馈
官方服务:
资源简介:
OpenThoughts-114k: 包含114k条开放思想的强化学习数据集。OpenR1-Math-220k: 包含220k条数学问题的强化学习数据集。GeneralThought-195K: 包含195K条通用思考的强化学习数据集。SYNTHETIC-1: 合成数据集,用于强化学习研究。Natural-reasoning: 自然推理数据集,用于强化学习。Big-Math-RL-Verified: 包含大量数学问题的强化学习数据集,经过验证。Chinese-DeepSeek-R1-Distill-data-110k: 包含110k条中文DeepSeek R1蒸馏数据的强化学习数据集。medical-o1-reasoning-SFT: 医学推理数据集,用于强化学习。Medical-R1-Distill-Data-Chinese: 中文医学R1蒸馏数据,用于强化学习。

OpenThoughts-114k: A reinforcement learning dataset containing 114k open-ended thought samples. OpenR1-Math-220k: A reinforcement learning dataset with 220k mathematical problem-solving samples. GeneralThought-195K: A reinforcement learning dataset encompassing 195K general thought samples. SYNTHETIC-1: A synthetic dataset intended for reinforcement learning research. Natural-reasoning: A natural reasoning dataset for reinforcement learning studies. Big-Math-RL-Verified: A verified reinforcement learning dataset featuring a large volume of mathematical problem samples. Chinese-DeepSeek-R1-Distill-data-110k: A reinforcement learning dataset consisting of 110k Chinese DeepSeek R1 distillation samples. medical-o1-reasoning-SFT: A medical reasoning dataset for reinforcement learning applications. Medical-R1-Distill-Data-Chinese: A Chinese medical R1 distillation dataset for reinforcement learning research.
创建时间:
2025-03-04
原始信息汇总

数据集概述

数据集列表

  1. OpenThoughts-114k

    • 地址: https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k
  2. OpenR1-Math-220k

    • 地址: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
  3. GeneralThought-195K

    • 地址: https://huggingface.co/datasets/GeneralReasoning/GeneralThought-195K
  4. SYNTHETIC-1

    • 地址: https://huggingface.co/datasets/PrimeIntellect/SYNTHETIC-1
  5. Natural-reasoning

    • 地址: https://huggingface.co/datasets/facebook/natural_reasoning
  6. Big-Math-RL-Verified

    • 地址: https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified
  7. Chinese-DeepSeek-R1-Distill-data-110k

    • 地址: https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k
  8. medical-o1-reasoning-SFT

    • 地址: https://huggingface.co/datasets/FreedomIntelligence/medical-o1-reasoning-SFT
  9. Medical-R1-Distill-Data-Chinese

    • 地址: https://huggingface.co/datasets/FreedomIntelligence/Medical-R1-Distill-Data-Chinese

数据集描述

  • 这些数据集主要涉及强化学习(Reinforcement Learning, RL)领域,特别是在大语言模型(LLMs)和多模态模型的背景下。
  • 数据集涵盖了从数学推理到医学推理的多个领域,部分数据集还涉及中文数据。
  • 数据集来源包括OpenAI、Facebook、SynthLabsAI等知名机构。

其他资源

搜集汇总
数据集介绍
main_image_url
构建方式
OpenThoughts-114k等数据集的构建主要基于强化学习(RL)和大语言模型(LLMs)的结合。这些数据集通过从公开的学术论文、技术文档以及开源项目中提取信息,经过多轮筛选和验证,确保数据的准确性和多样性。具体构建过程中,采用了自动化工具和人工审核相结合的方式,确保数据的高质量和广泛覆盖。此外,部分数据集还通过蒸馏技术(Distillation)从更大规模的模型中提取知识,进一步优化了数据的结构和内容。
特点
这些数据集的特点在于其多样性和专业性。OpenThoughts-114k等数据集涵盖了数学推理、自然语言处理、医学推理等多个领域,数据量庞大且内容丰富。每个数据集都经过严格的验证和标注,确保了数据的可靠性和实用性。特别是医学推理数据集,如medical-o1-reasoning-SFT,专注于医学领域的复杂推理任务,提供了高质量的标注数据,适用于医学领域的模型训练和评估。此外,部分数据集还提供了多语言支持,如Chinese-DeepSeek-R1-Distill-data-110k,专门针对中文环境进行了优化。
使用方法
这些数据集的使用方法主要围绕模型训练和评估展开。用户可以通过Hugging Face等平台直接下载数据集,并利用其进行大语言模型的微调和推理任务。对于数学推理数据集,如OpenR1-Math-220k,用户可以通过强化学习框架进行模型训练,提升模型在复杂数学问题上的表现。医学推理数据集则适用于医学领域的模型开发,用户可以通过这些数据集训练模型,提升其在医学文本理解和推理任务中的表现。此外,数据集还支持多语言环境,用户可以根据需求选择适合的语言数据进行训练和评估。
背景与挑战
背景概述
OpenThoughts-114k、OpenR1-Math-220k、GeneralThought-195K等数据集是近年来在强化学习与大型语言模型(LLMs)交叉领域中的重要资源。这些数据集的创建时间主要集中在2022年至2023年间,由多个研究团队和机构共同开发,包括DeepSeek、OpenAI、Facebook等。这些数据集的核心研究问题在于如何通过强化学习提升语言模型的推理能力,尤其是在数学推理、自然语言理解和医学领域的应用。这些数据集的出现极大地推动了LLMs在复杂任务中的表现,并为相关领域的研究提供了丰富的实验基础。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。首先,数据集的构建需要高质量的标注数据,尤其是在数学和医学领域,标注的准确性和专业性要求极高,这增加了数据收集和处理的难度。其次,强化学习在语言模型中的应用需要设计复杂的奖励机制,以确保模型能够从反馈中学习到有效的推理策略,这对算法设计和计算资源提出了较高要求。此外,如何确保模型在推理过程中的泛化能力,避免过拟合特定数据集,也是当前研究中的一大挑战。这些问题的解决将直接影响数据集在实际应用中的效果和推广。
常用场景
经典使用场景
在强化学习与大型语言模型(LLMs)的交叉领域,OpenThoughts-114k等数据集被广泛应用于训练和验证模型的推理能力。这些数据集通过提供大量的数学推理、自然语言推理和医学推理任务,帮助研究人员评估模型在复杂问题上的表现。特别是在多模态模型的训练中,这些数据集为模型提供了丰富的上下文信息,使其能够在不同领域中进行有效的推理和决策。
实际应用
在实际应用中,OpenThoughts-114k等数据集被用于开发智能助手、自动化推理系统和医学诊断工具。例如,在医学领域,Medical-R1-Distill-Data-Chinese数据集被用于训练模型以辅助医生进行疾病诊断和治疗方案推荐。这些数据集的应用不仅提高了模型的推理能力,还为实际场景中的决策支持系统提供了可靠的数据基础。
衍生相关工作
基于OpenThoughts-114k等数据集,衍生出了一系列经典研究工作。例如,DeepSeek-R1和R-star Math等研究通过利用这些数据集,提出了新的强化学习算法和模型架构,显著提升了模型的推理能力。此外,SimpleRL-reason等项目进一步探索了如何通过简化强化学习过程来优化模型的推理性能,推动了该领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作