OpenThoughts-114k-math

Hugging Face2025-01-30 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/open-r1/OpenThoughts-114k-math

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过过滤和元数据增强的数据集版本，源自`open-thoughts/OpenThoughts-114k`。原始数据集包含DeepSeek-R1的输出，但元数据较少。此版本通过过滤数学内容、映射原始问题、验证模型生成并添加元数据字段来增强数据集。数据集的结构包括源数据、问题陈述、解决方案、消息、系统提示、对话、生成的令牌数和正确性标签。此外，还提供了一些统计数据，如数学问题的比例、正确回答的比例和令牌数的分布。

创建时间：

2025-01-30

原始信息汇总

数据集概述

数据集名称

OpenThoughts-114k-math

数据集特点

包含数学问题的数据集，经过筛选和丰富元数据处理。
数据来源于 open-thoughts/OpenThoughts-114k，但增加了问题、解决方案、消息对话等元数据。

数据集结构

source: 原始数据来源，字符串类型。
problem: 问题陈述，字符串类型。
solution: 原始解决方案/黄金标签，字符串类型。
messages: 用于微调正确解决方案的消息对话，包含 content（内容）和 role（角色）字段，字符串类型。
system: 发送给 DeepSeek-R1 的系统提示，字符串类型。
conversations: DeepSeek-R1 生成的消息对话。最后一个对话是模型输出，包含 from（来源）和 value（值）字段，字符串类型。
generated_token_count: 模型输出的令牌数量，整型。
correct: 表示 DeepSeek-R1 生成的解决方案是否与地面真实 solution 匹配的标签，布尔类型。

数据集分割

train: 训练集，大小为 2333690726 字节，包含 89120 个示例。

数据集大小

下载大小：980472605 字节
数据集大小：2333690726 字节

数据集统计

原始 OpenThoughts-114k 数据集中有 78% 的行是数学问题。
其中 63% 的数学问题有正确的答案，由 Math-Verify 验证。
每个问题有单一生成。
令牌计数分布：平均值为 6366.67，标准差为 4662.88 令牌。

搜集汇总

数据集介绍

构建方式

OpenThoughts-114k-math数据集的构建，是在原始OpenThoughts-114k数据集的基础上，通过筛选数学内容并对数据集进行丰富元数据信息的处理而形成。具体而言，研究团队对原始数据集中的数学问题进行了筛选，并在AI-MO/NuminaMath-CoT数据集中寻找了原始问题，实现了与每条生成的映射。随后，使用Math-Verify库对模型生成的答案进行了验证，并新增了每个DeepSeek-R1完成输出的令牌计数作为元数据字段。

特点

该数据集的特点在于，它不仅包含了原始的数学问题和解决方案标签，而且还包含了为微调正确解决方案而设计的消息轮次。此外，数据集中还提供了系统提示、模型生成的对话轮次以及一个指示模型输出是否与地面真实解决方案匹配的标签。据统计，数据集中78%的条目是数学问题，其中63%的问题已通过Math-Verify库验证答案正确。

使用方法

使用OpenThoughts-114k-math数据集时，用户可以访问包括问题陈述、解决方案、对话消息、系统提示和生成令牌计数在内的多个字段。该数据集适用于数学问题解答模型的训练和评估，用户可以根据`correct`标签来衡量模型的准确性。数据集以HuggingFace的格式提供，可以通过HuggingFace的库方便地进行加载和处理。

背景与挑战

背景概述

OpenThoughts-114k-math数据集是在数学领域内，对原始OpenThoughts-114k数据集进行筛选和元数据丰富后的版本。该数据集由DeepSeek-R1输出构成，经过数学内容过滤，并与AI-MO/NuminaMath-CoT数据集中的原始问题相映射，利用Math-Verify库验证模型生成的答案，进而增加了每个DeepSeek-R1完成生成的token计数元数据字段。该数据集的创建旨在为数学问题解决领域提供一种新的资源，增强模型在数学问题上的表现评估与优化。自发布以来，该数据集受到了广泛关注，对数学问题自动解答系统的研发与评估产生了积极影响。

当前挑战

在构建OpenThoughts-114k-math数据集过程中，研究者面临了多项挑战。首先，如何有效地从原始数据集中筛选出数学内容是一大挑战。其次，将原始问题与生成答案进行准确映射，以及验证模型答案的正确性，均需要精细的数据处理技术。此外，数据集在数学领域的应用中还面临如何提高模型对数学问题解答的准确性和鲁棒性的挑战。在数据集的实际应用中，研究者还需解决如何利用该数据集进行有效的模型训练和评估的问题。

常用场景

经典使用场景

在数学教育及自动问答系统中，OpenThoughts-114k-math数据集被广泛应用于模型训练与评估。该数据集以其丰富的数学问题及解答，为模型提供了理解数学问题、生成解题步骤和验证答案的能力。

实际应用

在实际应用中，OpenThoughts-114k-math数据集可助力教育科技产品提供更加智能的辅导系统，自动评估学生解题过程并提供即时反馈，从而提升学习效率。

衍生相关工作

基于此数据集，研究者们进一步开展了多项相关工作，如数学解题模型的微调、数学表达式生成等，推动了数学教育领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集