DS2

github2025-03-05 更新2025-03-06 收录

下载链接：

https://github.com/UCSC-REAL/DS2

下载链接

链接失效反馈

官方服务：

资源简介：

DS2是一个多样性感知的评分校准方法，旨在通过利用评分转换矩阵来增强数据选择。

DS2 is a diversity-aware scoring calibration method designed to enhance data selection by utilizing a scoring transformation matrix.

创建时间：

2025-02-11

原始信息汇总

DS2 数据集概述

数据集简介

DS2 是一个由加州大学圣克鲁兹 REAL 实验室提出的多样性感知评分修正方法，旨在提高数据选择效率。该数据集通过纠正大型语言模型生成的原始评分中的常见错误，来提升数据质量。

数据集构成

评分转换矩阵：用于可视化评分误差。
数据选择管道：包括基于提示的LLM评分、评分修正、长尾多样性评分和最终数据选择步骤。

数据准备

评估/训练数据可通过运行以下脚本下载： bash

评估数据

bash model_finetune/prepare_eval_data.sh

训练数据

bash model_finetune/prepare_train_data.sh

快速开始

步骤 1: LLM提示式评分

使用三种标签模型生成评分：GPT-4o-mini、Mistral-7B-Instruct-v0.3、LLaMA-3.1-8B-Instruct。

运行以下命令获取LLM生成的评分： bash

开源LLM

cd LLM_scoring && bash scoring.sh

API调用

cd LLM_scoring && bash scoring_api.sh

步骤 2: 评分修正

运行以下命令执行评分修正：

cd score_curation && bash diagnose.sh

修正报告文件位于 score_curation_results/。

步骤 3: 数据选择

根据评分修正报告，运行以下命令生成高质量子集：

python subset_generation.py

步骤 4: 微调与评估

selected_data 路径下的子集可用于LLM指令微调。使用以下命令进行模型微调（代码库：TULU）：

cd model_finetune && bash run_pipeline.sh

引用

如果您使用了这个仓库，请引用我们的工作：

@article{pang2024improving, title={Improving Data Efficiency via Curating LLM-Driven Rating Systems}, author={Pang, Jinlong and Wei, Jiaheng and Shah, Ankit Parag and Zhu, Zhaowei and Wang, Yaxuan and Qian, Chen and Liu, Yang and Bao, Yujia and Wei, Wei}, journal={International Conference on Learning Representations}, year={2025} }

搜集汇总

数据集介绍

构建方式

DS2数据集的构建是基于促进数据选择多样性的理念，通过先进的大型语言模型（LLM）生成初步的质量评分，进而利用评分转换矩阵对潜在评分误差进行校正，生成校准后的质量评分。此外，通过测量特征嵌入之间的距离来评估每个样本的多样性，并最终通过双重排序策略，即先根据校准评分后根据长尾评分进行排序，从而确保数据集的高质量和多样性。

特点

DS2数据集的特点在于其创新性的多样性感知评分校准方法，该方法不仅纠正了LLM生成的原始评分误差，还通过识别非常见聚类中的样本，增强了数据集的多样性。这种双重评分和选择机制使得DS2数据集在去除低质量异常值的同时，能够保持数据集的丰富性和高质量。

使用方法

使用DS2数据集首先需要通过LLM提示生成评分，然后执行评分校准，最后根据生成的校准报告文件使用Python脚本进行数据选择，以生成高质量的数据子集。该数据子集可以进一步用于LLM指令微调。具体操作包括运行LLM评分脚本、执行评分校准诊断脚本、生成数据子集以及进行模型微调和评估。

背景与挑战

背景概述

DS2数据集由加州大学圣克鲁兹分校的REAL Lab团队开发，旨在应对大型语言模型（LLM）生成的原始评分数据中普遍存在的误差问题。该数据集的创建汇集了多位研究人员之力，包括Jinlong Pang、Jiaheng Wei等，并于2025年通过ICLR会议得到同行的认可。DS2的核心研究问题是如何通过精心设计的评分系统提高数据选择效率，进而优化LLM的评分准确性。该数据集的提出对促进LLM评分系统的可靠性和高效性研究具有重要意义，对相关领域产生了显著影响。

当前挑战

DS2数据集面临的挑战主要在于两个方面：一是如何准确识别并纠正LLM生成的评分误差，二是如何确保数据集的多样性和高质量。构建过程中，研究团队需要解决的技术挑战包括但不限于：设计有效的评分转换矩阵以降低评分误差，开发基于LLM的评分系统以生成初始质量评分，以及通过测量特征向量间的距离来评估样本的多样性，确保数据集的全面性和代表性。

常用场景

经典使用场景

DS2数据集针对大型语言模型生成的原始评分数据中普遍存在的误差问题，采用了一种多样性感知的评分校准方法来增强数据选择。其经典使用场景在于通过预训练的语言模型（如GPT-4o-mini、Mistral-7B-Instruct-v0.3、LLaMA-3.1-8B-Instruct）对数据样本进行初步的质量评分，然后利用评分转换矩阵对评分进行校准，以确保数据集的高质量和多样性。

解决学术问题

DS2数据集解决了学术研究中由于LLM模型评分误差导致的低质量数据筛选问题。通过引入评分校准和长尾多样性评分机制，DS2显著提高了数据筛选的效率和准确性，为模型训练和指令微调提供了高质量的数据子集，从而在保证数据多样性的同时，优化了数据利用效率。

衍生相关工作

DS2数据集的提出促进了后续相关工作的开展，如基于DS2的模型微调研究、评分系统的优化改进等，进一步推动了LLM模型在数据筛选和数据质量提升方面的应用，为自然语言处理领域的数据集构建和模型训练提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

DS2

DS2 数据集概述

数据集简介

数据集构成

数据准备

评估数据

训练数据

快速开始

步骤 1: LLM提示式评分

开源LLM

API调用

步骤 2: 评分修正

步骤 3: 数据选择

步骤 4: 微调与评估

引用