dpo_v0
收藏魔搭社区2025-05-09 更新2025-05-10 收录
下载链接:
https://modelscope.cn/datasets/Jsky1446/dpo_v0
下载链接
链接失效反馈官方服务:
资源简介:
数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。
# MERG 项目说明
## 项目进度
- ✅ 环境配置
- ✅ Stage1 训练
- ⏳ Stage2 训练(待开发)
- ✅ 音频特征提取
- ⏳ 视频特征提取(待开发)
- ⏳ Stage2 训练(待开发)
- ⏳ Stage3 训练(待开发)
- ⏳ Stage4 训练(待开发)
## 环境配置
### 1. 进入项目目录
```bash
cd data
```
### 2. 创建并激活虚拟环境
```bash
conda create -n merg python=3.9
conda activate merg
```
### 3. 安装 PyTorch 1.13.1
根据您的 CUDA 版本选择相应的命令:
```bash
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117
```
### 4. 安装其他依赖
```bash
pip install -r requirements.txt
```
> 注意:某些包(如 `dlib`)需要依赖 cmake,可能需要几分钟来编译。
### 5. 安装 monotonic_align
```bash
git clone git@github.com:resemble-ai/monotonic_align.git && cd monotonic_align && pip install . && cd ..
```
## 当前可用功能
### 1. Stage1 训练
1. 下载必要的模型文件:
- 从 [HuggingFace仓库](https://huggingface.co/mvsoom/pandagpt-vicuna-v0-7b/tree/main/pretrained_ckpt/vicuna_ckpt/7b_v0) 下载以下文件:
- `pytorch_model-00001-of-00002.bin`
- `pytorch_model-00002-of-00002.bin`
- 将文件放置在 `data/merg_ckpt/pretrained_ckpt/vicuna_ckpt/7b_v0/` 目录下
2. 运行 Stage1:
```bash
bash run_stage1.sh
```
### 2. 音频特征提取
1. 准备数据:
- 将音频文件放入 `merg_data/multimodal_empathetic_dialogue/audio` 目录
- 将视频文件放入 `merg_data/multimodal_empathetic_dialogue/video` 目录
2. 安装分词工具:
```bash
python -c "import nltk; nltk.download('punkt_tab')"
```
3. 提取音频特征:
```bash
python merg_code/speech_generator/generate_pt_multiprocess.py
```
## 待开发功能
- [ ] 视频特征提取
- [ ] Stage2 训练
> 注意:目前项目仅完成了音频特征提取部分,视频特征提取和后续训练部分仍在开发中。
数据集文件元数据与数据文件,请前往「数据集文件」页面获取。
# MERG 项目说明
## 项目进度
- ✅ 环境配置
- ✅ 第一阶段(Stage1)训练
- ⏳ 第二阶段(Stage2)训练(待开发)
- ✅ 音频特征提取
- ⏳ 视频特征提取(待开发)
- ⏳ 第二阶段(Stage2)训练(待开发)
- ⏳ 第三阶段(Stage3)训练(待开发)
- ⏳ 第四阶段(Stage4)训练(待开发)
## 环境配置
### 1. 进入项目目录
bash
cd data
### 2. 创建并激活虚拟环境
bash
conda create -n merg python=3.9
conda activate merg
### 3. 安装 PyTorch 1.13.1
请根据您的 CUDA 版本选择对应命令:
bash
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117
### 4. 安装其余依赖项
bash
pip install -r requirements.txt
> 注意:部分包(如 `dlib`)依赖 cmake,编译过程可能耗时数分钟。
### 5. 安装 monotonic_align
bash
git clone git@github.com:resemble-ai/monotonic_align.git && cd monotonic_align && pip install . && cd ..
## 当前可用功能
### 1. 第一阶段(Stage1)训练
1. 下载所需模型文件:
- 从 [HuggingFace 仓库](https://huggingface.co/mvsoom/pandagpt-vicuna-v0-7b/tree/main/pretrained_ckpt/vicuna_ckpt/7b_v0) 下载以下文件:
- `pytorch_model-00001-of-00002.bin`
- `pytorch_model-00002-of-00002.bin`
- 将文件存放至 `data/merg_ckpt/pretrained_ckpt/vicuna_ckpt/7b_v0/` 目录下
2. 启动第一阶段训练:
bash
bash run_stage1.sh
### 2. 音频特征提取
1. 数据准备:
- 将音频文件存放至 `merg_data/multimodal_empathetic_dialogue/audio` 目录
- 将视频文件存放至 `merg_data/multimodal_empathetic_dialogue/video` 目录
2. 安装分词工具:
bash
python -c "import nltk; nltk.download('punkt_tab')"
3. 执行音频特征提取:
bash
python merg_code/speech_generator/generate_pt_multiprocess.py
## 待开发功能
- [ ] 视频特征提取
- [ ] 第二阶段(Stage2)训练
> 注意:当前项目仅完成音频特征提取模块,视频特征提取及后续训练模块仍处于开发阶段。
提供机构:
maas
创建时间:
2025-05-06



