five

OpenThoughts3-1.2M

收藏
arXiv2025-06-05 更新2025-11-28 收录
下载链接:
https://hf-mirror.com/datasets/open-thoughts/OpenThoughts3-1.2M
下载链接
链接失效反馈
官方服务:
资源简介:
OpenThoughts3-1.2M是一个开放的数据集,旨在为推理模型训练提供高质量的开放数据。数据集包含120万条问题-答案对,覆盖数学、编程和科学领域。数据集通过系统地探索数据生成管道的每个步骤,使用超过1000次实验来优化数据质量。OpenThoughts3-1.2M数据集的创建过程采用了多种策略,包括从现有和新生成的数据集中获取问题、混合来自表现最好的来源的问题、使用fastText或LLMs过滤高质量的问题、对问题进行去重并抽样多个答案、使用LLM验证或多数共识过滤低质量答案、选择最佳的教师模型等。OpenThoughts3-1.2M数据集的应用领域包括数学、编程和科学,旨在解决推理模型训练中缺乏高质量开放数据的问题。

OpenThoughts3-1.2M is an open dataset aimed at providing high-quality open data for the training of reasoning models. The dataset contains 1.2 million question-answer pairs, covering the fields of mathematics, programming, and science. Its development involved systematically exploring every stage of the data generation pipeline and conducting over 1,000 experiments to optimize data quality. The creation process of OpenThoughts3-1.2M adopts multiple strategies, including extracting questions from existing and newly generated datasets, mixing questions from top-performing sources, filtering high-quality questions using fastText or LLMs, deduplicating questions and sampling multiple answers, filtering low-quality answers via LLM verification or majority consensus, and selecting the optimal teacher model, among others. The applicable domains of OpenThoughts3-1.2M include mathematics, programming, and science, with the goal of addressing the shortage of high-quality open data for reasoning model training.
提供机构:
斯坦福大学, 华盛顿大学, BespokeLabs.ai, 丰田研究院, 加州大学伯克利分校, 德克萨斯大学奥斯汀分校, 加利福尼亚大学洛杉矶分校, JSC, LAION, 纽约大学, 北卡罗来纳大学教堂山分校, 亚利桑那州立大学, Lila Sciences, 康奈尔科技, 慕尼黑工业大学, Open-Ψ (Open-Sci) Collective
创建时间:
2025-06-05
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作