CodeUltraFeedback
收藏arXiv2024-03-14 更新2024-06-21 收录
下载链接:
https://github.com/martin-wey/CodeUltraFeedback
下载链接
链接失效反馈官方服务:
资源简介:
CodeUltraFeedback是由蒙特利尔大学DIRO创建的一个包含10,000个复杂指令的数据集,旨在通过AI反馈调整和校准大型语言模型(LLMs)以符合编程偏好。该数据集通过14种不同的LLMs生成响应,并使用GPT-3.5作为评判标准,提供数值和文本反馈。数据集内容涵盖指令遵循、代码解释、代码复杂性和效率、代码可读性以及编码风格等五个非功能性要求(或编程偏好)。CodeUltraFeedback不仅用于校准LLMs,还支持了如UltraFeedback、AI反馈的强化学习(RLAIF)和LLM作为评判者等先进校准技术的开发。此外,该数据集还促进了CODAL-Bench的建立,这是一个评估LLMs与编程偏好对齐的基准。
CodeUltraFeedback is a dataset of 10,000 complex instructions created by the DIRO at the University of Montreal, which aims to adjust and calibrate large language models (LLMs) to align with programming preferences through AI feedback. The dataset generates responses using 14 different LLMs and provides numerical and textual feedback using GPT-3.5 as the evaluation standard. The content of the dataset covers five non-functional requirements (or programming preferences) such as instruction adherence, code explanation, code complexity and efficiency, code readability, and coding style. CodeUltraFeedback not only serves to calibrate LLMs but also supports the development of advanced calibration techniques such as UltraFeedback, AI feedback-based reinforcement learning (RLAIF), and LLMs as evaluators. Additionally, the dataset has facilitated the establishment of CODAL-Bench, a benchmark for assessing the alignment of LLMs with programming preferences.
提供机构:
蒙特利尔大学DIRO
创建时间:
2024-03-14
搜集汇总
数据集介绍

构建方式
CodeUltraFeedback数据集的构建采用了多步骤的方法。首先,从Magicoder Evol-Instruct数据集中选取了10,000个复杂的编码问题指令作为初始数据集。接着,从14个不同的LLM模型中随机选取4个模型为每个指令生成响应,以保证多样性和不同编程风格。然后,为每个指令分配一个编码偏好原则,并将其添加到输入提示中,以引导LLM生成符合编码偏好的响应。最后,使用GPT-3.5-Turbo作为LLM-as-a-Judge,对LLM的响应进行评估和标注,生成包含评分和文本解释的反馈。
特点
CodeUltraFeedback数据集的特点包括:1) 包含10,000个复杂的编码问题指令和40,000个LLM响应;2) 覆盖了五个非功能性要求(或编码偏好):指令遵循、代码解释、代码复杂性和效率、代码可读性和编码风格;3) 使用LLM-as-a-Judge方法进行标注,提供了包含评分和文本解释的反馈;4) 为每个编码偏好定义了10个原则,以指导LLM生成过程。
使用方法
CodeUltraFeedback数据集可用于LLM的偏好调整,通过使用AI反馈数据进行监督微调和强化学习。此外,数据集还提供了CODAL-Bench基准,用于评估和比较LLM与编码偏好的对齐程度。使用LLM-as-a-Judge进行评估,可以更细腻地评估代码与编码偏好的对齐程度。
背景与挑战
背景概述
随着大型语言模型(LLMs)在编码能力方面的飞速发展,如何评估这些模型与用户定义的编码偏好之间的对齐程度成为一个关键问题。现有的基准测试主要依赖自动化指标和静态分析工具,难以评估用户指令和LLM输出之间的细微差别。为了填补这一空白,CodeUltraFeedback数据集应运而生。该数据集由加拿大蒙特利尔大学的研究人员创建,旨在通过AI反馈调整和校准LLMs,使其更符合用户的编码偏好。CodeUltraFeedback包含了10,000个复杂的指令和40,000个LLM生成的响应,这些响应根据五个编码偏好进行了标注,包括指令遵循、代码解释、代码复杂性和效率、代码可读性以及编码风格。该数据集的创建为LLMs的偏好调整提供了重要的工具,并通过强化学习从AI反馈(RLAIF)和直接偏好优化(DPO)等先进技术,实现了对LLMs的有效校准。
当前挑战
尽管CodeUltraFeedback在LLMs偏好调整方面取得了显著进展,但仍面临一些挑战。首先,如何平衡LLMs的功能正确性和非功能性需求是一个重要的研究课题。其次,尽管GPT-3.5和GPT-4在评估其他LLMs方面表现出色,但它们的开源性和成本效益仍有待提高。此外,LLMs在指令遵循偏好方面普遍表现不佳,这可能是由于指令本身的不明确性所致。最后,尽管SFT和DPO等方法在提高LLMs对齐度方面表现出色,但它们在提高功能正确性方面的效果仍有待进一步研究。因此,未来的研究需要探索更有效的学习方法,以同时优化LLMs的功能正确性和偏好对齐度。
常用场景
经典使用场景
CodeUltraFeedback数据集旨在通过AI反馈调整和校准大型语言模型(LLMs)以适应编程偏好。该数据集包含10,000个复杂指令和40,000个LLM生成的响应,这些响应根据五个编程偏好进行了标注:指令遵循、代码解释、代码复杂性和效率、代码可读性和编码风格。使用LLM-as-a-Judge方法,特别是GPT-3.5,对LLM的响应进行评估,生成数值和文本反馈。该数据集的一个经典使用场景是通过直接偏好优化(DPO)和从AI反馈中学习强化学习(RLAIF)来调整LLMs,以提高其与编程偏好的对齐程度。例如,CodeLlama-7B-Instruct模型通过使用CodeUltraFeedback的AI反馈数据进行SFT和DPO调整,在CODAL-Bench上优于34B LLMs,证明了CodeUltraFeedback在偏好调整中的实用性。
实际应用
CodeUltraFeedback数据集在实际应用中具有重要的价值。它可以帮助LLMs更好地理解并遵循用户的编程偏好,生成更符合用户期望的代码。此外,该数据集还可以用于评估LLMs在代码生成任务中的性能,从而帮助开发人员选择最适合他们需求的LLMs。例如,通过使用CodeUltraFeedback对CodeLlama-7B-Instruct模型进行SFT和DPO调整,该模型在HumanEval+上的功能正确性得到了显著提高,这表明该数据集在实际应用中具有广泛的应用前景。
衍生相关工作
CodeUltraFeedback数据集的引入为LLM偏好调整和评估开辟了新的研究方向。基于CodeUltraFeedback,研究人员可以进一步探索LLM偏好调整的技术和方法,例如RLAIF和DPO。此外,该数据集还可以用于开发新的基准,以评估LLMs在代码生成任务中的性能。例如,CODAL-Bench是一个基于CodeUltraFeedback的基准,用于评估LLMs与五个编程偏好之间的对齐程度。这些衍生出的相关工作有助于推动LLM在代码生成领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



