天池Better-Synth多模态大模型数据合成挑战赛Baseline
收藏魔搭社区2025-06-30 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/Tsumugii24/better-synth-challenge-baseline
下载链接
链接失效反馈官方服务:
资源简介:
### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
### 其他说明
1. 依赖安装
- 推荐使用 conda 环境
```shell
conda create -n dj python=3.10
conda activate dj
bash install.sh
```
2. 比赛资源下载
- 下载基础模型,种子/微调/评测数据集
- 基础模型与微调数据集均存放于训练目录中指定位置
- 种子数据集存放于`input`目录
- 评测数据集存放于`toolkit/eval`目录
```shell
bash download.sh
```
3. 数据处理与合成
- 比赛要求使用 [data-juicer](https://github.com/modelscope/data-juicer) 基于上一步中下载的**种子数据集**进行数据处理与合成
- 数据处理与合成相关代码请存放于`solution`目录中,并在`solution/requirements.txt`中添加所需的依赖
- 最后也请在`solution/readme`中详细介绍所使用的数据处理与合成方案
- 处理后的数据集需按照如下结构存放:
```
📦 output/
├── 📂 processed_data/
│ ├── 📂 synthetic_images/ (if any)
│ └── 📄 processed_data.jsonl
│ ...
```
- `processed_data.jsonl`需为标准的`JSONL`格式,例如:
```json lines
{"images": ["images/00237/002375592.jpg"], "text": "<image>\nadorable pink and gray elephant themed party favour boxes with tissue fillers <|__dj__eoc|>", "id": "002375592"}
{"images": ["images/00199/001999195.jpg"], "text": "<image>\nbreccinano adult dog food for all ages with turkey, lamb and venisi <|__dj__eoc|>", "id": "001999195"}
...
```
4. 执行模型训练/推理
- 模型训练与推理
```shell
cd toolkit/
# 请根据自身需求修改训练脚本train_mgm_2b_stage_1.sh内的参数
# 您只能修改以下范围内的参数
############################################################################
########################### Editable Part Begins ###########################
############################################################################
# 可修改参数范围
############################################################################
############################ Editable Part Ends ############################
############################################################################
# 修改完毕后执行训练与推理脚本
bash train_mgm_2b_stage_1.sh
```
- 训练与推理结束后,会在`output`目录中产出训练好的模型以及评测集推理结果
- 训练后的模型存放于:`output/training_dirs`
- 推理结果存放于:`output/eval_results`
5. 线上赛提交结果
线上赛只需要提交solution,训练脚本,训练日志(pretrain和finetuning),以及评测推理结果
- 请将数据处理方案、训练及推理脚本、训练日志、推理结果打包成一个 zip 文件,上传至天池平台进行评测。
- 为保证提交的规范性,务必遵循以下文件打包结构并提交以下所需的文件,请勿添加额外的顶级目录。
```text
submit.zip
├── solution
│ ├── readme ########## 介绍您的算法设计和执行流程 ##########
│ ├── requirements.txt ########## 第三方 pip 依赖库 ##########
│ └── ...
└── output
├── train.sh ########## 训练脚本 ##########
├── training_dirs
│ ├── MGM-2B-Pretrain-xxxx ########## 预训练好的模型 ##########
│ │ └── pretrain.log ########## 预训练日志 ##########
│ └── MGM-2B-Finetune-xxxx ########## 微调好的模型 ##########
│ └── finetune.log ########## 微调训练日志 ##########
└── eval_results ########## 推理结果 ##########
└── MGM-2B-Finetune-xxxx
```
6. 线下赛提交结果
- 请将数据处理方案、训练与推理脚本、处理与合成的数据、模型checkpoint、推理结果等打包为一个zip文件,上传到天池平台进行评测
```shell
zip -r submit.zip solution/ output/
```
- 为保证提交的规范性,务必遵循以下文件打包结构并提交以下所需文件,请勿添加额外的顶层目录
```text
submit.zip
├── solution
│ ├── readme ########## 介绍您的算法设计和执行流程 ##########
│ ├── requirements.txt ########## 第三方 pip 依赖库 ##########
│ ├── ...
└── output
├── train.sh ########## 训练脚本 ##########
├── processed_data
│ ├── synthetic_images/ ########## 合成的图片数据(如有) ##########
│ └── processed_data.jsonl ########## 用于训练的处理与合成的数据文件 ##########
├── training_dirs
│ ├── MGM-2B-Pretrain-xxxx ########## 预训练好的模型 ##########
│ │ ├── pretrain.log ########## 预训练日志 ##########
│ │ └── mm_projector.bin
│ └── MGM-2B-Finetune-xxxx ########## 微调好的模型 ##########
│ ├── finetune.log ########## 微调训练日志 ##########
│ └── model-xxx.safetensors
└── eval_results ########## 推理结果 ##########
└── MGM-2B-Finetune-xxxx
```
### 下载方式
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
### 补充说明
1. 依赖环境配置
推荐使用conda创建隔离环境:
shell
conda create -n dj python=3.10
conda activate dj
bash install.sh
2. 赛事资源下载
需下载基础模型、种子数据集、微调数据集及评测数据集:
- 基础模型与微调数据集需存放至训练目录的指定位置
- 种子数据集存放于`input`目录
- 评测数据集存放于`toolkit/eval`目录
执行以下命令完成下载:
shell
bash download.sh
3. 数据处理与合成
本次赛事要求使用**数据榨汁机(data-juicer)**基于此前下载的种子数据集开展数据处理与合成任务:
- 所有数据处理与合成相关代码需存放至`solution`目录,并在`solution/requirements.txt`中声明所需的第三方依赖
- 请在`solution/readme`中详细阐述所采用的数据处理与合成方案
- 处理完成后的数据集需遵循如下目录结构:
📦 output/
├── 📂 processed_data/
│ ├── 📂 synthetic_images/(若有合成图片)
│ └── 📄 processed_data.jsonl
│ ...
其中`processed_data.jsonl`需符合标准JSON Lines格式(JSONL),示例如下:
json lines
{"images": ["images/00237/002375592.jpg"], "text": "<image>
adorable pink and gray elephant themed party favour boxes with tissue fillers <|__dj__eoc|>", "id": "002375592"}
{"images": ["images/00199/001999195.jpg"], "text": "<image>
breccinano adult dog food for all ages with turkey, lamb and venisi <|__dj__eoc|>", "id": "001999195"}
...
4. 模型训练与推理执行
执行模型训练与推理流程:
shell
cd toolkit/
# 请根据实际需求修改训练脚本`train_mgm_2b_stage_1.sh`内的参数
# 仅可修改以下范围内的参数
############################################################################
########################### Editable Part Begins ###########################
############################################################################
# 可修改参数范围
############################################################################
############################ Editable Part Ends ############################
############################################################################
# 修改完成后执行训练与推理脚本
bash train_mgm_2b_stage_1.sh
训练与推理任务完成后,`output`目录将生成训练完成的模型与评测集推理结果:
- 训练完成的模型存放路径:`output/training_dirs`
- 评测集推理结果存放路径:`output/eval_results`
5. 线上赛事提交要求
线上赛道仅需提交以下内容:数据处理方案、训练与推理脚本、训练日志(预训练与微调日志)以及评测推理结果。
请将上述材料打包为单个ZIP文件后上传至天池平台参与评测。为确保提交格式规范,请严格遵循以下文件结构,不得添加额外的顶级目录:
text
submit.zip
├── solution
│ ├── readme ########## 算法设计与执行流程说明 ##########
│ ├── requirements.txt ########## 第三方Python依赖库声明 ##########
│ └── ...
└── output
├── train.sh ########## 训练脚本 ##########
├── training_dirs
│ ├── MGM-2B-Pretrain-xxxx ########## 预训练完成的模型 ##########
│ │ └── pretrain.log ########## 预训练日志 ##########
│ └── MGM-2B-Finetune-xxxx ########## 微调完成的模型 ##########
│ └── finetune.log ########## 微调训练日志 ##########
└── eval_results ########## 评测推理结果 ##########
└── MGM-2B-Finetune-xxxx
6. 线下赛事提交要求
线下赛道需将数据处理方案、训练与推理脚本、处理合成后的数据集、模型检查点、推理结果等材料打包为单个ZIP文件后上传至天池平台参与评测,打包命令示例如下:
shell
zip -r submit.zip solution/ output/
为确保提交格式规范,请严格遵循以下文件结构,不得添加额外的顶级目录:
text
submit.zip
├── solution
│ ├── readme ########## 算法设计与执行流程说明 ##########
│ ├── requirements.txt ########## 第三方Python依赖库声明 ##########
│ ├── ...
└── output
├── train.sh ########## 训练脚本 ##########
├── processed_data
│ ├── synthetic_images/ ########## 合成图片数据(如有) ##########
│ └── processed_data.jsonl ########## 训练用处理合成数据集文件 ##########
├── training_dirs
│ ├── MGM-2B-Pretrain-xxxx ########## 预训练完成的模型 ##########
│ │ ├── pretrain.log ########## 预训练日志 ##########
│ │ └── mm_projector.bin
│ └── MGM-2B-Finetune-xxxx ########## 微调完成的模型 ##########
│ ├── finetune.log ########## 微调训练日志 ##########
│ └── model-xxx.safetensors
└── eval_results ########## 评测推理结果 ##########
└── MGM-2B-Finetune-xxxx
提供机构:
maas
创建时间:
2024-08-07
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是天池Better-Synth多模态大模型数据合成挑战赛的基线资源,包含用于数据处理的脚本、模型训练工具和评估框架。它提供了从数据下载、处理合成到模型训练和竞赛提交的完整操作指南,支持参赛者构建符合要求的多模态数据集。
以上内容由遇见数据集搜集并总结生成



