天池Better-Synth多模态大模型数据合成挑战赛Baseline

Name: 天池Better-Synth多模态大模型数据合成挑战赛Baseline
Creator: maas
Published: 2025-06-30 16:15:06
License: 暂无描述

魔搭社区2025-06-30 更新2025-02-22 收录

下载链接：

https://modelscope.cn/datasets/Tsumugii24/better-synth-challenge-baseline

下载链接

链接失效反馈

官方服务：

资源简介：

### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} ### 其他说明 1. 依赖安装 - 推荐使用 conda 环境 ```shell conda create -n dj python=3.10 conda activate dj bash install.sh ``` 2. 比赛资源下载 - 下载基础模型，种子/微调/评测数据集 - 基础模型与微调数据集均存放于训练目录中指定位置 - 种子数据集存放于`input`目录 - 评测数据集存放于`toolkit/eval`目录 ```shell bash download.sh ``` 3. 数据处理与合成 - 比赛要求使用 [data-juicer](https://github.com/modelscope/data-juicer) 基于上一步中下载的**种子数据集**进行数据处理与合成 - 数据处理与合成相关代码请存放于`solution`目录中，并在`solution/requirements.txt`中添加所需的依赖 - 最后也请在`solution/readme`中详细介绍所使用的数据处理与合成方案 - 处理后的数据集需按照如下结构存放： ``` 📦 output/ ├── 📂 processed_data/ │ ├── 📂 synthetic_images/ (if any) │ └── 📄 processed_data.jsonl │ ... ``` - `processed_data.jsonl`需为标准的`JSONL`格式，例如： ```json lines {"images": ["images/00237/002375592.jpg"], "text": "<image>\nadorable pink and gray elephant themed party favour boxes with tissue fillers <|__dj__eoc|>", "id": "002375592"} {"images": ["images/00199/001999195.jpg"], "text": "<image>\nbreccinano adult dog food for all ages with turkey, lamb and venisi <|__dj__eoc|>", "id": "001999195"} ... ``` 4. 执行模型训练/推理 - 模型训练与推理 ```shell cd toolkit/ # 请根据自身需求修改训练脚本train_mgm_2b_stage_1.sh内的参数 # 您只能修改以下范围内的参数 ############################################################################ ########################### Editable Part Begins ########################### ############################################################################ # 可修改参数范围 ############################################################################ ############################ Editable Part Ends ############################ ############################################################################ # 修改完毕后执行训练与推理脚本 bash train_mgm_2b_stage_1.sh ``` - 训练与推理结束后，会在`output`目录中产出训练好的模型以及评测集推理结果 - 训练后的模型存放于：`output/training_dirs` - 推理结果存放于：`output/eval_results` 5. 线上赛提交结果线上赛只需要提交solution，训练脚本，训练日志（pretrain和finetuning），以及评测推理结果 - 请将数据处理方案、训练及推理脚本、训练日志、推理结果打包成一个 zip 文件，上传至天池平台进行评测。 - 为保证提交的规范性，务必遵循以下文件打包结构并提交以下所需的文件，请勿添加额外的顶级目录。 ```text submit.zip ├── solution │ ├── readme ########## 介绍您的算法设计和执行流程 ########## │ ├── requirements.txt ########## 第三方 pip 依赖库 ########## │ └── ... └── output ├── train.sh ########## 训练脚本 ########## ├── training_dirs │ ├── MGM-2B-Pretrain-xxxx ########## 预训练好的模型 ########## │ │ └── pretrain.log ########## 预训练日志 ########## │ └── MGM-2B-Finetune-xxxx ########## 微调好的模型 ########## │ └── finetune.log ########## 微调训练日志 ########## └── eval_results ########## 推理结果 ########## └── MGM-2B-Finetune-xxxx ``` 6. 线下赛提交结果 - 请将数据处理方案、训练与推理脚本、处理与合成的数据、模型checkpoint、推理结果等打包为一个zip文件，上传到天池平台进行评测 ```shell zip -r submit.zip solution/ output/ ``` - 为保证提交的规范性，务必遵循以下文件打包结构并提交以下所需文件，请勿添加额外的顶层目录 ```text submit.zip ├── solution │ ├── readme ########## 介绍您的算法设计和执行流程 ########## │ ├── requirements.txt ########## 第三方 pip 依赖库 ########## │ ├── ... └── output ├── train.sh ########## 训练脚本 ########## ├── processed_data │ ├── synthetic_images/ ########## 合成的图片数据（如有） ########## │ └── processed_data.jsonl ########## 用于训练的处理与合成的数据文件 ########## ├── training_dirs │ ├── MGM-2B-Pretrain-xxxx ########## 预训练好的模型 ########## │ │ ├── pretrain.log ########## 预训练日志 ########## │ │ └── mm_projector.bin │ └── MGM-2B-Finetune-xxxx ########## 微调好的模型 ########## │ ├── finetune.log ########## 微调训练日志 ########## │ └── model-xxx.safetensors └── eval_results ########## 推理结果 ########## └── MGM-2B-Finetune-xxxx ```

### 下载方式 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} ### 补充说明 1. 依赖环境配置推荐使用conda创建隔离环境： shell conda create -n dj python=3.10 conda activate dj bash install.sh 2. 赛事资源下载需下载基础模型、种子数据集、微调数据集及评测数据集： - 基础模型与微调数据集需存放至训练目录的指定位置 - 种子数据集存放于`input`目录 - 评测数据集存放于`toolkit/eval`目录执行以下命令完成下载： shell bash download.sh 3. 数据处理与合成本次赛事要求使用**数据榨汁机（data-juicer）**基于此前下载的种子数据集开展数据处理与合成任务： - 所有数据处理与合成相关代码需存放至`solution`目录，并在`solution/requirements.txt`中声明所需的第三方依赖 - 请在`solution/readme`中详细阐述所采用的数据处理与合成方案 - 处理完成后的数据集需遵循如下目录结构： 📦 output/ ├── 📂 processed_data/ │ ├── 📂 synthetic_images/（若有合成图片） │ └── 📄 processed_data.jsonl │ ... 其中`processed_data.jsonl`需符合标准JSON Lines格式（JSONL），示例如下： json lines {"images": ["images/00237/002375592.jpg"], "text": "<image> adorable pink and gray elephant themed party favour boxes with tissue fillers <|__dj__eoc|>", "id": "002375592"} {"images": ["images/00199/001999195.jpg"], "text": "<image> breccinano adult dog food for all ages with turkey, lamb and venisi <|__dj__eoc|>", "id": "001999195"} ... 4. 模型训练与推理执行执行模型训练与推理流程： shell cd toolkit/ # 请根据实际需求修改训练脚本`train_mgm_2b_stage_1.sh`内的参数 # 仅可修改以下范围内的参数 ############################################################################ ########################### Editable Part Begins ########################### ############################################################################ # 可修改参数范围 ############################################################################ ############################ Editable Part Ends ############################ ############################################################################ # 修改完成后执行训练与推理脚本 bash train_mgm_2b_stage_1.sh 训练与推理任务完成后，`output`目录将生成训练完成的模型与评测集推理结果： - 训练完成的模型存放路径：`output/training_dirs` - 评测集推理结果存放路径：`output/eval_results` 5. 线上赛事提交要求线上赛道仅需提交以下内容：数据处理方案、训练与推理脚本、训练日志（预训练与微调日志）以及评测推理结果。请将上述材料打包为单个ZIP文件后上传至天池平台参与评测。为确保提交格式规范，请严格遵循以下文件结构，不得添加额外的顶级目录： text submit.zip ├── solution │ ├── readme ########## 算法设计与执行流程说明 ########## │ ├── requirements.txt ########## 第三方Python依赖库声明 ########## │ └── ... └── output ├── train.sh ########## 训练脚本 ########## ├── training_dirs │ ├── MGM-2B-Pretrain-xxxx ########## 预训练完成的模型 ########## │ │ └── pretrain.log ########## 预训练日志 ########## │ └── MGM-2B-Finetune-xxxx ########## 微调完成的模型 ########## │ └── finetune.log ########## 微调训练日志 ########## └── eval_results ########## 评测推理结果 ########## └── MGM-2B-Finetune-xxxx 6. 线下赛事提交要求线下赛道需将数据处理方案、训练与推理脚本、处理合成后的数据集、模型检查点、推理结果等材料打包为单个ZIP文件后上传至天池平台参与评测，打包命令示例如下： shell zip -r submit.zip solution/ output/ 为确保提交格式规范，请严格遵循以下文件结构，不得添加额外的顶级目录： text submit.zip ├── solution │ ├── readme ########## 算法设计与执行流程说明 ########## │ ├── requirements.txt ########## 第三方Python依赖库声明 ########## │ ├── ... └── output ├── train.sh ########## 训练脚本 ########## ├── processed_data │ ├── synthetic_images/ ########## 合成图片数据（如有） ########## │ └── processed_data.jsonl ########## 训练用处理合成数据集文件 ########## ├── training_dirs │ ├── MGM-2B-Pretrain-xxxx ########## 预训练完成的模型 ########## │ │ ├── pretrain.log ########## 预训练日志 ########## │ │ └── mm_projector.bin │ └── MGM-2B-Finetune-xxxx ########## 微调完成的模型 ########## │ ├── finetune.log ########## 微调训练日志 ########## │ └── model-xxx.safetensors └── eval_results ########## 评测推理结果 ########## └── MGM-2B-Finetune-xxxx

提供机构：

maas

创建时间：

2024-08-07

搜集汇总

数据集介绍