dpo_v0

Name: dpo_v0
Creator: maas
Published: 2025-05-09 22:27:42
License: 暂无描述

魔搭社区2025-05-09 更新2025-05-10 收录

下载链接：

https://modelscope.cn/datasets/Jsky1446/dpo_v0

下载链接

链接失效反馈

官方服务：

资源简介：

数据集文件元信息以及数据文件，请浏览“数据集文件”页面获取。 # MERG 项目说明 ## 项目进度 - ✅ 环境配置 - ✅ Stage1 训练 - ⏳ Stage2 训练（待开发） - ✅ 音频特征提取 - ⏳ 视频特征提取（待开发） - ⏳ Stage2 训练（待开发） - ⏳ Stage3 训练（待开发） - ⏳ Stage4 训练（待开发） ## 环境配置 ### 1. 进入项目目录 ```bash cd data ``` ### 2. 创建并激活虚拟环境 ```bash conda create -n merg python=3.9 conda activate merg ``` ### 3. 安装 PyTorch 1.13.1 根据您的 CUDA 版本选择相应的命令： ```bash pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117 ``` ### 4. 安装其他依赖 ```bash pip install -r requirements.txt ``` > 注意：某些包（如 `dlib`）需要依赖 cmake，可能需要几分钟来编译。 ### 5. 安装 monotonic_align ```bash git clone git@github.com:resemble-ai/monotonic_align.git && cd monotonic_align && pip install . && cd .. ``` ## 当前可用功能 ### 1. Stage1 训练 1. 下载必要的模型文件： - 从 [HuggingFace仓库](https://huggingface.co/mvsoom/pandagpt-vicuna-v0-7b/tree/main/pretrained_ckpt/vicuna_ckpt/7b_v0) 下载以下文件： - `pytorch_model-00001-of-00002.bin` - `pytorch_model-00002-of-00002.bin` - 将文件放置在 `data/merg_ckpt/pretrained_ckpt/vicuna_ckpt/7b_v0/` 目录下 2. 运行 Stage1： ```bash bash run_stage1.sh ``` ### 2. 音频特征提取 1. 准备数据： - 将音频文件放入 `merg_data/multimodal_empathetic_dialogue/audio` 目录 - 将视频文件放入 `merg_data/multimodal_empathetic_dialogue/video` 目录 2. 安装分词工具： ```bash python -c "import nltk; nltk.download('punkt_tab')" ``` 3. 提取音频特征： ```bash python merg_code/speech_generator/generate_pt_multiprocess.py ``` ## 待开发功能 - [ ] 视频特征提取 - [ ] Stage2 训练 > 注意：目前项目仅完成了音频特征提取部分，视频特征提取和后续训练部分仍在开发中。

数据集文件元数据与数据文件，请前往「数据集文件」页面获取。 # MERG 项目说明 ## 项目进度 - ✅ 环境配置 - ✅ 第一阶段（Stage1）训练 - ⏳ 第二阶段（Stage2）训练（待开发） - ✅ 音频特征提取 - ⏳ 视频特征提取（待开发） - ⏳ 第二阶段（Stage2）训练（待开发） - ⏳ 第三阶段（Stage3）训练（待开发） - ⏳ 第四阶段（Stage4）训练（待开发） ## 环境配置 ### 1. 进入项目目录 bash cd data ### 2. 创建并激活虚拟环境 bash conda create -n merg python=3.9 conda activate merg ### 3. 安装 PyTorch 1.13.1 请根据您的 CUDA 版本选择对应命令： bash pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117 ### 4. 安装其余依赖项 bash pip install -r requirements.txt > 注意：部分包（如 `dlib`）依赖 cmake，编译过程可能耗时数分钟。 ### 5. 安装 monotonic_align bash git clone git@github.com:resemble-ai/monotonic_align.git && cd monotonic_align && pip install . && cd .. ## 当前可用功能 ### 1. 第一阶段（Stage1）训练 1. 下载所需模型文件： - 从 [HuggingFace 仓库](https://huggingface.co/mvsoom/pandagpt-vicuna-v0-7b/tree/main/pretrained_ckpt/vicuna_ckpt/7b_v0) 下载以下文件： - `pytorch_model-00001-of-00002.bin` - `pytorch_model-00002-of-00002.bin` - 将文件存放至 `data/merg_ckpt/pretrained_ckpt/vicuna_ckpt/7b_v0/` 目录下 2. 启动第一阶段训练： bash bash run_stage1.sh ### 2. 音频特征提取 1. 数据准备： - 将音频文件存放至 `merg_data/multimodal_empathetic_dialogue/audio` 目录 - 将视频文件存放至 `merg_data/multimodal_empathetic_dialogue/video` 目录 2. 安装分词工具： bash python -c "import nltk; nltk.download('punkt_tab')" 3. 执行音频特征提取： bash python merg_code/speech_generator/generate_pt_multiprocess.py ## 待开发功能 - [ ] 视频特征提取 - [ ] 第二阶段（Stage2）训练 > 注意：当前项目仅完成音频特征提取模块，视频特征提取及后续训练模块仍处于开发阶段。

提供机构：

maas

创建时间：

2025-05-06

5,000+

优质数据集

54 个

任务类型

进入经典数据集