DS2
收藏DS2 数据集概述
数据集简介
DS2 是一个由加州大学圣克鲁兹 REAL 实验室提出的多样性感知评分修正方法,旨在提高数据选择效率。该数据集通过纠正大型语言模型生成的原始评分中的常见错误,来提升数据质量。
数据集构成
- 评分转换矩阵:用于可视化评分误差。
- 数据选择管道:包括基于提示的LLM评分、评分修正、长尾多样性评分和最终数据选择步骤。
数据准备
-
评估/训练数据可通过运行以下脚本下载: bash
评估数据
bash model_finetune/prepare_eval_data.sh
训练数据
bash model_finetune/prepare_train_data.sh
快速开始
步骤 1: LLM提示式评分
使用三种标签模型生成评分:GPT-4o-mini、Mistral-7B-Instruct-v0.3、LLaMA-3.1-8B-Instruct。
-
运行以下命令获取LLM生成的评分: bash
开源LLM
cd LLM_scoring && bash scoring.sh
API调用
cd LLM_scoring && bash scoring_api.sh
步骤 2: 评分修正
运行以下命令执行评分修正:
cd score_curation && bash diagnose.sh
修正报告文件位于 score_curation_results/。
步骤 3: 数据选择
根据评分修正报告,运行以下命令生成高质量子集:
python subset_generation.py
步骤 4: 微调与评估
selected_data 路径下的子集可用于LLM指令微调。使用以下命令进行模型微调(代码库:TULU):
cd model_finetune && bash run_pipeline.sh
引用
如果您使用了这个仓库,请引用我们的工作:
@article{pang2024improving, title={Improving Data Efficiency via Curating LLM-Driven Rating Systems}, author={Pang, Jinlong and Wei, Jiaheng and Shah, Ankit Parag and Zhu, Zhaowei and Wang, Yaxuan and Qian, Chen and Liu, Yang and Bao, Yujia and Wei, Wei}, journal={International Conference on Learning Representations}, year={2025} }




