five

天池Better-Synth多模态大模型数据合成挑战赛Baseline

收藏
魔搭社区2025-06-30 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/Tsumugii24/better-synth-challenge-baseline
下载链接
链接失效反馈
官方服务:
资源简介:
### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} ### 其他说明 1. 依赖安装 - 推荐使用 conda 环境 ```shell conda create -n dj python=3.10 conda activate dj bash install.sh ``` 2. 比赛资源下载 - 下载基础模型,种子/微调/评测数据集 - 基础模型与微调数据集均存放于训练目录中指定位置 - 种子数据集存放于`input`目录 - 评测数据集存放于`toolkit/eval`目录 ```shell bash download.sh ``` 3. 数据处理与合成 - 比赛要求使用 [data-juicer](https://github.com/modelscope/data-juicer) 基于上一步中下载的**种子数据集**进行数据处理与合成 - 数据处理与合成相关代码请存放于`solution`目录中,并在`solution/requirements.txt`中添加所需的依赖 - 最后也请在`solution/readme`中详细介绍所使用的数据处理与合成方案 - 处理后的数据集需按照如下结构存放: ``` 📦 output/ ├── 📂 processed_data/ │ ├── 📂 synthetic_images/ (if any) │ └── 📄 processed_data.jsonl │ ... ``` - `processed_data.jsonl`需为标准的`JSONL`格式,例如: ```json lines {"images": ["images/00237/002375592.jpg"], "text": "<image>\nadorable pink and gray elephant themed party favour boxes with tissue fillers <|__dj__eoc|>", "id": "002375592"} {"images": ["images/00199/001999195.jpg"], "text": "<image>\nbreccinano adult dog food for all ages with turkey, lamb and venisi <|__dj__eoc|>", "id": "001999195"} ... ``` 4. 执行模型训练/推理 - 模型训练与推理 ```shell cd toolkit/ # 请根据自身需求修改训练脚本train_mgm_2b_stage_1.sh内的参数 # 您只能修改以下范围内的参数 ############################################################################ ########################### Editable Part Begins ########################### ############################################################################ # 可修改参数范围 ############################################################################ ############################ Editable Part Ends ############################ ############################################################################ # 修改完毕后执行训练与推理脚本 bash train_mgm_2b_stage_1.sh ``` - 训练与推理结束后,会在`output`目录中产出训练好的模型以及评测集推理结果 - 训练后的模型存放于:`output/training_dirs` - 推理结果存放于:`output/eval_results` 5. 线上赛提交结果 线上赛只需要提交solution,训练脚本,训练日志(pretrain和finetuning),以及评测推理结果 - 请将数据处理方案、训练及推理脚本、训练日志、推理结果打包成一个 zip 文件,上传至天池平台进行评测。 - 为保证提交的规范性,务必遵循以下文件打包结构并提交以下所需的文件,请勿添加额外的顶级目录。 ```text submit.zip ├── solution │ ├── readme ########## 介绍您的算法设计和执行流程 ########## │ ├── requirements.txt ########## 第三方 pip 依赖库 ########## │ └── ... └── output ├── train.sh ########## 训练脚本 ########## ├── training_dirs │ ├── MGM-2B-Pretrain-xxxx ########## 预训练好的模型 ########## │ │ └── pretrain.log ########## 预训练日志 ########## │ └── MGM-2B-Finetune-xxxx ########## 微调好的模型 ########## │ └── finetune.log ########## 微调训练日志 ########## └── eval_results ########## 推理结果 ########## └── MGM-2B-Finetune-xxxx ``` 6. 线下赛提交结果 - 请将数据处理方案、训练与推理脚本、处理与合成的数据、模型checkpoint、推理结果等打包为一个zip文件,上传到天池平台进行评测 ```shell zip -r submit.zip solution/ output/ ``` - 为保证提交的规范性,务必遵循以下文件打包结构并提交以下所需文件,请勿添加额外的顶层目录 ```text submit.zip ├── solution │ ├── readme ########## 介绍您的算法设计和执行流程 ########## │ ├── requirements.txt ########## 第三方 pip 依赖库 ########## │ ├── ... └── output ├── train.sh ########## 训练脚本 ########## ├── processed_data │ ├── synthetic_images/ ########## 合成的图片数据(如有) ########## │ └── processed_data.jsonl ########## 用于训练的处理与合成的数据文件 ########## ├── training_dirs │ ├── MGM-2B-Pretrain-xxxx ########## 预训练好的模型 ########## │ │ ├── pretrain.log ########## 预训练日志 ########## │ │ └── mm_projector.bin │ └── MGM-2B-Finetune-xxxx ########## 微调好的模型 ########## │ ├── finetune.log ########## 微调训练日志 ########## │ └── model-xxx.safetensors └── eval_results ########## 推理结果 ########## └── MGM-2B-Finetune-xxxx ```

### 下载方式 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} ### 补充说明 1. 依赖环境配置 推荐使用conda创建隔离环境: shell conda create -n dj python=3.10 conda activate dj bash install.sh 2. 赛事资源下载 需下载基础模型、种子数据集、微调数据集及评测数据集: - 基础模型与微调数据集需存放至训练目录的指定位置 - 种子数据集存放于`input`目录 - 评测数据集存放于`toolkit/eval`目录 执行以下命令完成下载: shell bash download.sh 3. 数据处理与合成 本次赛事要求使用**数据榨汁机(data-juicer)**基于此前下载的种子数据集开展数据处理与合成任务: - 所有数据处理与合成相关代码需存放至`solution`目录,并在`solution/requirements.txt`中声明所需的第三方依赖 - 请在`solution/readme`中详细阐述所采用的数据处理与合成方案 - 处理完成后的数据集需遵循如下目录结构: 📦 output/ ├── 📂 processed_data/ │ ├── 📂 synthetic_images/(若有合成图片) │ └── 📄 processed_data.jsonl │ ... 其中`processed_data.jsonl`需符合标准JSON Lines格式(JSONL),示例如下: json lines {"images": ["images/00237/002375592.jpg"], "text": "<image> adorable pink and gray elephant themed party favour boxes with tissue fillers <|__dj__eoc|>", "id": "002375592"} {"images": ["images/00199/001999195.jpg"], "text": "<image> breccinano adult dog food for all ages with turkey, lamb and venisi <|__dj__eoc|>", "id": "001999195"} ... 4. 模型训练与推理执行 执行模型训练与推理流程: shell cd toolkit/ # 请根据实际需求修改训练脚本`train_mgm_2b_stage_1.sh`内的参数 # 仅可修改以下范围内的参数 ############################################################################ ########################### Editable Part Begins ########################### ############################################################################ # 可修改参数范围 ############################################################################ ############################ Editable Part Ends ############################ ############################################################################ # 修改完成后执行训练与推理脚本 bash train_mgm_2b_stage_1.sh 训练与推理任务完成后,`output`目录将生成训练完成的模型与评测集推理结果: - 训练完成的模型存放路径:`output/training_dirs` - 评测集推理结果存放路径:`output/eval_results` 5. 线上赛事提交要求 线上赛道仅需提交以下内容:数据处理方案、训练与推理脚本、训练日志(预训练与微调日志)以及评测推理结果。 请将上述材料打包为单个ZIP文件后上传至天池平台参与评测。为确保提交格式规范,请严格遵循以下文件结构,不得添加额外的顶级目录: text submit.zip ├── solution │ ├── readme ########## 算法设计与执行流程说明 ########## │ ├── requirements.txt ########## 第三方Python依赖库声明 ########## │ └── ... └── output ├── train.sh ########## 训练脚本 ########## ├── training_dirs │ ├── MGM-2B-Pretrain-xxxx ########## 预训练完成的模型 ########## │ │ └── pretrain.log ########## 预训练日志 ########## │ └── MGM-2B-Finetune-xxxx ########## 微调完成的模型 ########## │ └── finetune.log ########## 微调训练日志 ########## └── eval_results ########## 评测推理结果 ########## └── MGM-2B-Finetune-xxxx 6. 线下赛事提交要求 线下赛道需将数据处理方案、训练与推理脚本、处理合成后的数据集、模型检查点、推理结果等材料打包为单个ZIP文件后上传至天池平台参与评测,打包命令示例如下: shell zip -r submit.zip solution/ output/ 为确保提交格式规范,请严格遵循以下文件结构,不得添加额外的顶级目录: text submit.zip ├── solution │ ├── readme ########## 算法设计与执行流程说明 ########## │ ├── requirements.txt ########## 第三方Python依赖库声明 ########## │ ├── ... └── output ├── train.sh ########## 训练脚本 ########## ├── processed_data │ ├── synthetic_images/ ########## 合成图片数据(如有) ########## │ └── processed_data.jsonl ########## 训练用处理合成数据集文件 ########## ├── training_dirs │ ├── MGM-2B-Pretrain-xxxx ########## 预训练完成的模型 ########## │ │ ├── pretrain.log ########## 预训练日志 ########## │ │ └── mm_projector.bin │ └── MGM-2B-Finetune-xxxx ########## 微调完成的模型 ########## │ ├── finetune.log ########## 微调训练日志 ########## │ └── model-xxx.safetensors └── eval_results ########## 评测推理结果 ########## └── MGM-2B-Finetune-xxxx
提供机构:
maas
创建时间:
2024-08-07
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是天池Better-Synth多模态大模型数据合成挑战赛的基线资源,包含用于数据处理的脚本、模型训练工具和评估框架。它提供了从数据下载、处理合成到模型训练和竞赛提交的完整操作指南,支持参赛者构建符合要求的多模态数据集。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务