gromov-5

Hugging Face2025-08-04 更新2025-08-05 收录

下载链接：

https://huggingface.co/datasets/attn-signs/gromov-5

下载链接

链接失效反馈

官方服务：

资源简介：

Gromov-5数据集是INTELLECT-2数据集的清洗和翻译版本，保留了原始的ID和地面真实答案。该数据集只包含了可验证的数学任务类型的行，并经过语言模型处理，去除了任务编号和其他元数据。同时，数据集中还标记了问题是否包含解决方案。

The Gromov-5 Dataset is a cleaned and translated variant of the INTELLECT-2 Dataset, retaining the original IDs and ground-truth answers. This dataset only includes entries of verifiable mathematical task types, and has been processed by language models to remove task numbers and other metadata. Additionally, the dataset annotates whether a question includes a solution.

创建时间：

2025-08-01

原始信息汇总

Gromov-5数据集概述

基本信息

数据集名称: Gromov-5
来源: INTELLECT-2的清理和翻译版本
原始数据集链接: https://huggingface.co/datasets/PrimeIntellect/INTELLECT-2-RL-Dataset
许可证: Apache-2.0
语言: 俄语 (ru)
标签: 数学 (math)
规模分类: 100K<n<1M

数据集结构

特征:
- id (string): 原始ID
- en (string): 英文内容
- answer (string): 正确答案
- problem (string): 问题描述
拆分:
- train:
  - 样本数量: 258,958
  - 字节大小: 177,393,373
下载大小: 85,846,743
数据集大小: 177,393,373

处理信息

筛选条件: 仅使用task_type=verifiable_math的行
处理步骤:
- 应用LLM处理去除任务编号和其他元数据
- 应用LLM处理检测问题是否包含解决方案（通过ERROR字符串标记）
保留内容: 原始ID和ground_truth答案保持不变

搜集汇总

数据集介绍

构建方式

Gromov-5数据集作为数学领域的重要语料库，其构建过程体现了严谨的数据筛选与处理流程。该数据集基于INTELLECT-2原始数据，通过保留原始ID和标准答案的方式确保数据溯源性，同时仅筛选task_type为verifiable_math的数学验证类题目。采用大规模语言模型技术对题目编号等元数据进行清洗，并创新性地通过LLM识别题目内嵌的解题过程，以'ERROR'字符串标注存在解答的样本，最终形成包含25.8万条俄英双语数学问题的精校版本。

特点

该数据集最显著的特征在于其专业化的数学问题标注体系，每条数据包含问题原文（en）、标准答案（answer）及问题陈述（problem）三重结构化字段。俄英双语特性为跨语言数学推理研究提供可能，而严格筛选的可验证数学问题则保障了数据的学术严谨性。特别设计的'ERROR'标记系统能有效识别含解题步骤的样本，为数学自动解题系统的训练与评估提供了独特的监督信号。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其Apache-2.0许可允许自由的学术与商业用途。典型应用场景包括：基于problem字段构建数学问题理解模型，利用answer字段开发自动解题系统，或结合ERROR标记研究解题过程生成。数据以标准JSON格式存储，支持直接接入主流深度学习框架，其百万级规模特别适合训练需要大量数学语料的预训练模型。

背景与挑战

背景概述

Gromov-5数据集作为INTELLECT-2数据集的清洗与翻译版本，专注于数学领域的可验证性问题。该数据集由Prime Intellect机构主导构建，保留了原始数据的ID与标准答案，同时通过大型语言模型（LLM）处理剔除了任务编号等元数据，并识别问题是否包含解决方案。其核心研究问题在于提升数学问题的自动化处理与验证能力，为数学教育与人工智能结合提供了重要资源。该数据集的构建标志着数学问题自动化处理领域的重要进展，对推动智能教育系统的发展具有显著影响。

当前挑战

Gromov-5数据集面临的挑战主要集中在两个方面：其一，数学问题的复杂性与多样性使得自动化处理与验证的难度显著增加，尤其在确保答案准确性与问题表述一致性方面存在较大挑战；其二，数据集构建过程中，如何有效利用LLM技术清洗数据并识别问题中的解决方案，同时避免引入新的噪声或误差，成为技术实现上的关键难点。这些挑战直接关系到数据集的质量与应用效果，需要在后续研究中持续优化与改进。

常用场景

经典使用场景

在数学教育领域，Gromov-5数据集因其专注于可验证数学问题而成为研究者的重要工具。该数据集通过精心筛选和翻译INTELLECT-2中的数学问题，保留了原始的真实答案，为数学问题的自动求解和验证提供了标准化的测试平台。研究者可以利用该数据集训练和评估数学问题求解模型，特别是在验证数学推理和解题步骤的准确性方面。

解决学术问题

Gromov-5数据集解决了数学问题自动求解中的关键挑战，包括问题表述的标准化和答案的可验证性。通过保留原始的真实答案并剔除无关元数据，该数据集为数学教育技术和自动推理研究提供了高质量的训练和评估资源。其应用显著提升了数学问题求解模型的准确性和泛化能力，推动了数学教育智能化的发展。

衍生相关工作

围绕Gromov-5数据集，研究者们开发了多种数学问题求解和验证模型。这些工作包括基于深度学习的数学推理模型、自动解题系统以及数学教育辅助工具。该数据集还激发了跨领域研究，如自然语言处理与数学教育的结合，进一步拓展了其在智能教育中的应用前景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集