walton-multimodal-cold-start-r1-format

Name: walton-multimodal-cold-start-r1-format
Creator: maas
Published: 2025-11-27 16:42:45
License: 暂无描述

魔搭社区2025-11-27 更新2025-08-02 收录

下载链接：

https://modelscope.cn/datasets/oumi-ai/walton-multimodal-cold-start-r1-format

下载链接

链接失效反馈

官方服务：

资源简介：

# walton-multimodal-cold-start-r1-format WaltonFuture/Multimodal-Cold-Start converted to multimodal-open-r1-8k-verified format with filtering ## Dataset Description This dataset was processed using the [data-preproc](https://github.com/oumi-ai/ml-preproc) package for vision-language model training. ### Processing Configuration - **Base Model**: Qwen/Qwen2.5-7B-Instruct - **Tokenizer**: Qwen/Qwen2.5-7B-Instruct - **Sequence Length**: 16384 - **Processing Type**: Vision Language (VL) ### Dataset Features - **input_ids**: Tokenized input sequences - **attention_mask**: Attention masks for the sequences - **labels**: Labels for language modeling - **images**: PIL Image objects - **messages**: Original conversation messages - **metadata**: Processing metadata ### Processing Statistics - **Original Samples**: 10000 - **Processed Samples**: 10000 - **Success Rate**: 100.0% - **Average Token Length**: N/A - **Max Token Length**: N/A - **Truncation Rate**: N/A ### Usage ```python from datasets import load_dataset # Load the dataset dataset = load_dataset("your-org/your-dataset-name") # Access samples sample = dataset["train"][0] print(f"Input tokens: {len(sample['input_ids'])}") print(f"Images: {len(sample['images'])}") print(f"Messages: {sample['messages']}") ``` ## License This dataset is released under the specified license. Please check the license field for details.

# walton-multimodal-cold-start-r1-format 已将 WaltonFuture/Multimodal-Cold-Start 转换为经过滤处理的 multimodal-open-r1-8k-verified 格式 ## 数据集说明本数据集专为视觉语言模型训练设计，通过 [data-preproc](https://github.com/oumi-ai/ml-preproc) 工具包完成预处理。 ### 处理配置 - **基础模型**：Qwen/Qwen2.5-7B-Instruct - **分词器**：Qwen/Qwen2.5-7B-Instruct - **序列长度**：16384 - **处理类型**：视觉语言（Vision Language，VL） ### 数据集特征 - **input_ids**：经过分词的输入序列 - **attention_mask**：序列的注意力掩码 - **labels**：语言建模任务的标签 - **images**：PIL 图像对象 - **messages**：原始对话内容 - **metadata**：预处理元数据 ### 处理统计数据 - **原始样本数**：10000 - **处理后样本数**：10000 - **处理成功率**：100.0% - **平均Token长度**：无（N/A） - **最大Token长度**：无（N/A） - **截断率**：无（N/A） ### 使用方法 python from datasets import load_dataset # 加载数据集 dataset = load_dataset("your-org/your-dataset-name") # 访问样本 sample = dataset["train"][0] print(f"输入Token数量：{len(sample['input_ids'])}") print(f"图像数量：{len(sample['images'])}") print(f"对话内容：{sample['messages']}") ## 许可证本数据集已按指定开源协议发布，详情请查看数据集中的许可证字段。

提供机构：

maas

创建时间：

2025-07-31

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个经过格式转换和过滤的多模态视觉语言数据集，源自WaltonFuture/Multimodal-Cold-Start，并转换为multimodal-open-r1-8k-verified格式。它包含10000个样本，专为视觉语言模型训练设计，具有输入ID、注意力掩码、图像和消息等特征，采用Apache-2.0许可证。

以上内容由遇见数据集搜集并总结生成