REFED

Name: REFED
Creator: 伊利诺伊大学厄巴纳-香槟分校
Published: 2025-02-07 05:29:00
License: 暂无描述

arXiv2025-02-07 更新2025-02-26 收录

下载链接：

https://github.com/Shuhaibm/refed

下载链接

链接失效反馈

官方服务：

资源简介：

REFED数据集是通过参考级反馈机制生成的，包含了10000条指令-响应对。该数据集由伊利诺伊大学厄巴纳-香槟分校的研究团队创建，旨在通过利用高质量的参考样本中的反馈来指导新数据的合成，进而提高数据合成的质量标准。数据集的构建基于LIMA训练数据集，利用GPT-4o mini模型进行数据合成。REFED数据集可应用于指令微调任务，通过该数据集微调的模型在AlpacaEval 2.0和Arena-Hard基准测试中表现出色。

The REFED dataset is generated via a reference-level feedback mechanism, containing 10,000 instruction-response pairs. This dataset was created by the research team from the University of Illinois Urbana-Champaign, aiming to guide the synthesis of new data by leveraging feedback from high-quality reference samples, thereby improving the quality standards of data synthesis. The construction of the dataset is based on the LIMA training dataset, and the GPT-4o mini model is utilized for data synthesis. The REFED dataset can be applied to instruction fine-tuning tasks, and models fine-tuned with this dataset have achieved excellent performance on the AlpacaEval 2.0 and Arena-Hard benchmarks.

提供机构：

伊利诺伊大学厄巴纳-香槟分校

创建时间：

2025-02-07

搜集汇总

数据集介绍

构建方式

REFED数据集的构建采用了一种名为REFERENCE-LEVEL FEEDBACK的新型方法。该方法首先从精心挑选的种子数据中收集高质量参考样本的反馈，然后利用这些反馈来捕捉样本中理想特性的丰富信号，并将这些特性传播到新合成的数据中。具体来说，数据集的构建过程分为三个阶段：反馈收集、数据合成和理论效率分析。在反馈收集阶段，对每个参考样本的指令和响应都进行全面的反馈收集。在数据合成阶段，使用收集到的指令反馈来合成新的指令，并使用响应反馈来改进生成的响应。最后，理论效率分析表明，与传统的样本级反馈方法相比，该方法在反馈收集频率方面具有更高的效率。

使用方法

REFED数据集的使用方法如下：1. 将数据集作为指令微调的培训数据，以提高大型语言模型（LLMs）的指令遵循能力。2. 可以将数据集与其他数据合成方法相结合，以进一步提高数据质量。3. 可以使用LLM-judge过滤或ROUGE-L相似度过滤等过滤策略，以选择高质量的数据样本。4. 可以将数据集用于各种模型架构，包括基础模型和指令模型，以提高模型的性能。

背景与挑战

背景概述

REFED数据集的创建是为了解决大型语言模型（LLMs）在遵循自然语言指令方面的能力，这主要归功于对高质量数据集的指令微调。虽然合成数据生成已经成为一种可扩展的创建此类数据集的方法，但保持一致的质量标准仍然是一个挑战。REFED数据集由伊利诺伊大学香槟分校的Shuhaib Mehri、Xiusi Chen、Heng Ji和Dilek Hakkani-Tür等研究人员创建，旨在通过使用参考级反馈来指导数据合成，从而提高合成数据的质量。REFED数据集包含10K个指令-响应对，这些数据对是使用参考级反馈合成的。该数据集对相关领域的影响力体现在它能够在AlpacaEval 2.0和Arena-Hard等指令遵循基准测试中实现最先进的性能，并且在使用REFED进行微调的Llama-3.1-8B-Instruct模型在AlpacaEval 2.0上实现了21.06%的长度控制胜率提升，同时在Arena-Hard上取得了强劲的成绩。REFED数据集的创建和应用为提高LLMs的性能和准确性提供了新的思路和方法。

当前挑战

REFED数据集面临的挑战主要包括：1) 所解决的领域问题的挑战：即如何提高合成数据的质量，使其能够更好地用于LLMs的指令微调；2) 构建过程中所遇到的挑战：例如，如何有效地收集和利用参考级反馈，以及如何确保合成数据的一致性和多样性。REFED数据集的创建者们通过收集高质量参考样本的反馈来捕捉丰富的信号，并将这些信号传播到新合成的数据中，从而提高了合成数据的质量。然而，这种方法仍然依赖于更强的LLM来合成数据，并且合成数据的质量与种子数据的质量密切相关。此外，LLM生成的数据可能包含有害内容，这可能会反映LLM的偏见。REFED数据集的创建者们也意识到，他们的框架可能存在可扩展性问题，即从种子数据中可以合成多少数据，直到合成的数据变得重复并缺乏多样性。因此，REFED数据集的创建者们提出了一系列未来的研究方向，例如探索种子数据选择的影响，以及如何使框架更加独立和健壮。

常用场景

经典使用场景

REFED数据集被广泛应用于大型语言模型（LLMs）的指令微调。该数据集通过参考级反馈，从高质量的种子数据中收集反馈，并使用这些反馈来合成和改进新数据。REFED数据集包含了10K指令-响应对，这些数据对LLMs的指令微调起到了关键作用。

解决学术问题

REFED数据集解决了合成数据生成中保持一致质量标准的问题。传统的数据生成方法依赖于人工标注或现有数据集的重用，这限制了数据集的规模和多样性。REFED数据集通过使用参考级反馈，有效地提高了合成数据的整体质量，并降低了数据收集的成本和时间。

实际应用

REFED数据集在实际应用中，可以用于提高LLMs的指令遵循能力，从而在自然语言处理任务中取得更好的性能。REFED数据集还可以用于开发更高质量的指令微调数据集，从而提高LLMs在特定领域的性能。此外，REFED数据集还可以用于研究和开发新的数据合成方法，从而提高LLMs的性能和可解释性。

数据集最近研究