MM-MathInstruct-to-r1-format-filtered

Name: MM-MathInstruct-to-r1-format-filtered
Creator: maas
Published: 2025-12-05 16:43:57
License: 暂无描述

魔搭社区2025-12-05 更新2025-08-02 收录

下载链接：

https://modelscope.cn/datasets/oumi-ai/MM-MathInstruct-to-r1-format-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

# MM-MathInstruct-to-r1-format-filtered MM-MathInstruct dataset transformed to R1 format and filtered by token length and image quality ## Dataset Description This dataset was processed using the [data-preproc](https://github.com/oumi-ai/ml-preproc) package for vision-language model training. ### Processing Configuration - **Base Model**: Qwen/Qwen2.5-7B-Instruct - **Tokenizer**: Qwen/Qwen2.5-7B-Instruct - **Sequence Length**: 16384 - **Processing Type**: Vision Language (VL) ### Dataset Features - **input_ids**: Tokenized input sequences - **attention_mask**: Attention masks for the sequences - **labels**: Labels for language modeling - **images**: PIL Image objects - **messages**: Original conversation messages - **metadata**: Processing metadata ### Processing Statistics - **Original Samples**: 10000 - **Processed Samples**: 10000 - **Success Rate**: 100.0% - **Average Token Length**: N/A - **Max Token Length**: N/A - **Truncation Rate**: N/A ### Usage ```python from datasets import load_dataset # Load the dataset dataset = load_dataset("your-org/your-dataset-name") # Access samples sample = dataset["train"][0] print(f"Input tokens: {len(sample['input_ids'])}") print(f"Images: {len(sample['images'])}") print(f"Messages: {sample['messages']}") ``` ## License This dataset is released under the specified license. Please check the license field for details.

# MM-MathInstruct-to-r1-format-filtered 经过R1格式转换与分词长度、图像质量过滤后的MM-MathInstruct数据集 ## 数据集说明本数据集针对视觉语言模型（vision-language model, VLM）训练需求，通过[data-preproc](https://github.com/oumi-ai/ml-preproc)工具包完成处理。 ### 处理配置 - **基础模型（Base Model）**: Qwen/Qwen2.5-7B-Instruct - **分词器（Tokenizer）**: Qwen/Qwen2.5-7B-Instruct - **序列长度（Sequence Length）**: 16384 - **处理类型**: 视觉语言（Vision Language, VL） ### 数据集特征 - **输入词索引（input_ids）**: 经过分词处理的输入序列 - **注意力掩码（attention_mask）**: 用于序列的注意力掩码 - **标签（labels）**: 语言建模任务所需的标签 - **图像（images）**: PIL图像对象 - **对话内容（messages）**: 原始会话消息 - **元数据（metadata）**: 处理过程元数据 ### 处理统计数据 - **原始样本数**: 10000 - **处理后样本数**: 10000 - **处理成功率**: 100.0% - **平均分词长度**: N/A - **最大分词长度**: N/A - **截断率**: N/A ### 使用方法 python from datasets import load_dataset # Load the dataset dataset = load_dataset("your-org/your-dataset-name") # Access samples sample = dataset["train"][0] print(f"Input tokens: {len(sample['input_ids'])}") print(f"Images: {len(sample['images'])}") print(f"Messages: {sample['messages']}") ## 授权协议本数据集遵循指定授权协议发布，详情请查看数据集中的license字段。

提供机构：

maas

创建时间：

2025-07-31

5,000+

优质数据集

54 个

任务类型

进入经典数据集