MathVerse-Vietnamese

Hugging Face2025-12-29 更新2025-12-30 收录

下载链接：

https://huggingface.co/datasets/nhn309261/MathVerse-Vietnamese

下载链接

链接失效反馈

官方服务：

资源简介：

这是MathVerse数据集的越南语版本，使用大型语言模型（LLM）自动翻译而成。该数据集保留了原始多模态结构，包括几何图像和各种类型的问题，支持越南语数学视觉问答研究。数据集包含原始MathVerse的列和新增的翻译列，如越南语问题（question_vi）和推理链问题（query_cot_vi）等。由于是自动翻译，部分专业数学术语可能不完全准确。

创建时间：

2025-12-28

原始信息汇总

MathVerse - Vietnamese Edition 数据集概述

数据集基本信息

数据集名称: MathVerse - Vietnamese Edition
托管地址: https://huggingface.co/datasets/nhn309261/MathVerse-Vietnamese
语言: 越南语 (vi)、英语 (en)
许可证: cc-by-nc-4.0
任务类别: 问答、视觉问答
标签: 数学、几何、教育、mathverse
数据规模: 1k<n<10k
源数据集: AI4Math/MathVerse

数据集描述

该数据集是原始 MathVerse 数据集的越南语版本，使用大语言模型自动翻译而成。它保留了原始数据集的多模态结构，包含几何图像和不同类型的问题，旨在支持越南语数学视觉问答任务的研究。

数据配置与结构

数据集包含两种配置：

默认配置 (default): 包含训练集 (train)，数据文件路径为 data/train-*。
模型预测配置 (model_predict): 包含测试集 (test)，数据文件路径为 model_predict/test-*。

数据特征（基于`model_predict`配置）

sample_index: 样本索引
problem_index: 问题索引
problem_version: 问题版本
image: 图像数据（包含二进制字节和路径）
question_type: 问题类型
metadata: 元数据（包含来源、划分、子领域、学科）
answer: 正确答案
model_predict: 模型预测
question_en: 英文问题
question_vi: 越南语问题
query_wo: 查询（无推理）
query_cot: 链式推理查询
question_for_eval: 用于评估的问题
model_output: 模型输出
is_correct: 是否正确

数据划分与大小

测试集 (test): 包含 3,152 个样本，大小为 86,224,440 字节。
下载大小: 35,572,796 字节。
数据集总大小: 86,224,440 字节。

数据字段翻译映射

原始列名	越南语列名	描述
`question`	`question_vi`	主要数学问题
`query_cot`	`query_cot_vi`	要求链式推理的问题
`query_direct`	`query_direct_vi`	要求直接回答的问题
`answer`	(保持不变)	正确答案（通常为 A, B, C, D 或数字）
`image`	(保持不变)	随附的几何图像路径或对象

创建信息

创建者: nhn309261
源数据: AI4Math/MathVerse 的 testmini/test 划分
翻译方法: 使用 Qwen2.5/Qwen3（或类似）模型翻译文本字段。

注意事项

由于采用自动翻译，部分深入的数学术语可能不完全准确。鼓励社区贡献以修正错误。

搜集汇总

数据集介绍

构建方式

在数学教育领域，多模态数据集对于推动视觉问答研究至关重要。MathVerse-Vietnamese数据集基于原始英文版MathVerse构建，通过大型语言模型自动翻译其文本字段，同时完整保留了原始数据集的多模态结构，包括几何图像与多样化的问题类型。这一构建过程确保了数据集在语言转换过程中，其数学问题的视觉与逻辑关联性得以延续，为越南语数学视觉问答研究提供了高质量资源。

特点

该数据集的核心特点在于其双语对照与多模态融合。它不仅提供了越南语翻译的问题文本，如主问题、链式推理查询和直接查询，还保留了原始的几何图像及正确答案。这种设计使得数据集能够支持跨语言数学推理研究，同时通过图像与文本的紧密结合，模拟真实数学问题求解场景，为评估模型在复杂视觉与语言交互任务中的表现提供了丰富素材。

使用方法

研究人员可利用该数据集进行越南语数学视觉问答模型的训练与评估。典型应用包括加载数据集后，结合图像输入与越南语问题文本，训练多模态模型执行答案预测或推理生成。数据集中的链式推理查询字段特别适用于需要逐步推理的模型测试，而双语对照结构则便于开展跨语言迁移学习研究，推动数学教育智能化的发展。

背景与挑战

背景概述

MathVerse-Vietnamese数据集是MathVerse多模态数学问题解答基准的越南语版本，由研究者nhn309261于近期构建并发布。该数据集源于AI4Math/MathVerse项目，旨在通过自动翻译技术，将原数据集中的几何图像与多样化数学问题转化为越南语语境，从而服务于数学视觉问答领域的跨语言研究。其核心研究问题聚焦于探索大型语言模型在专业学科领域的多语言理解与推理能力，特别是针对数学几何问题的视觉-语言联合建模。这一努力不仅丰富了非英语数学教育资源，也为评估和提升人工智能在复杂学科多模态任务上的泛化性能提供了重要数据支撑。

当前挑战

MathVerse-Vietnamese数据集致力于解决数学视觉问答领域的跨语言迁移挑战，其核心在于如何确保专业数学术语与几何逻辑在自动翻译过程中的准确性与一致性。构建过程中面临的主要挑战包括：专业数学符号与表述的精确转换，避免因语言差异导致的语义歧义；维持原始多模态数据中图像与文本问句的语义对齐，确保视觉信息与翻译后问题的对应关系不受破坏；以及自动翻译可能引入的术语错误或句式偏差，需通过后续人工校验与社区协作予以修正，以保障数据集在学术评估中的可靠性与有效性。

常用场景

经典使用场景

在数学教育技术领域，MathVerse-Vietnamese数据集为视觉问答任务提供了关键资源。该数据集通过结合几何图像与多类型数学问题，支持研究者开发能够理解并解答越南语数学题目的多模态人工智能系统。经典使用场景包括训练和评估视觉语言模型在解析几何图形、进行逻辑推理以及生成准确答案方面的能力，尤其适用于涉及平行线、角度计算等几何概念的题目。

解决学术问题

该数据集有效解决了跨语言数学视觉问答研究中的资源稀缺问题。它为学术界提供了标准化的越南语数学问题基准，促进了多模态推理模型在非英语语境下的性能评估与比较。通过提供自动翻译的文本与原始图像对，数据集支持探究语言差异对模型数学理解能力的影响，并助力于开发更具泛化性的教育人工智能工具，推动了数学智能辅助系统的公平性与可及性。

衍生相关工作

围绕该数据集，衍生出了一系列专注于多模态数学推理的经典研究工作。这些工作通常探索如何融合视觉编码器与大型语言模型，以处理像MathVerse-Vietnamese这样的图文混合数学问题。相关研究重点包括设计更有效的跨模态对齐机制、改进链式思维提示方法以增强模型推理的透明性，以及开发针对几何定理应用的专用评估指标。这些成果共同推动了教育人工智能在复杂学科问题求解方向上的技术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集