rigour-rlaif-data

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/rigour-labs/rigour-rlaif-data

下载链接

链接失效反馈

官方服务：

资源简介：

Rigour RLAIF 训练数据集专为微调代码质量分析模型而设计。该数据集包含3098个SFT（监督微调）对和1515个DPO（直接偏好优化）对，其中3098个样本经过验证，1479个被丢弃，验证率为67.7%。数据集涵盖了多种代码质量问题类别，包括dry_violation（重复代码违规）、long_file（文件过长）、lazy_class（懒惰类）、srp_violation（单一职责原则违规）、missing_test（缺失测试）、god_function（上帝函数）、missing_abstraction（缺失抽象）、god_class（上帝类）、architecture（架构问题）和test_quality（测试质量问题），各类别的验证率从20.2%到93.7%不等。该数据集适用于文本生成任务，特别关注代码质量和严谨性，可用于RLAIF（强化学习人工智能反馈）和DPO（直接偏好优化）相关研究。

创建时间：

2026-03-03

原始信息汇总

Rigour RLAIF Training Data 数据集概述

数据集基本信息

发布者/机构: rigour-labs
语言: 英语 (en)
许可证: Apache License 2.0 (apache-2.0)
主要任务类别: 文本生成 (text-generation)
核心标签: 代码质量 (code-quality), rigour, RLAIF, DPO
数据规模: 1K<n<10K

数据集目的与内容

该数据集用于微调代码质量分析模型。

数据统计

监督微调数据对数量: 3098
直接偏好优化数据对数量: 1515
已验证数据量: 3098
已丢弃数据量: 1479
整体验证通过率: 67.7%

主要代码质量类别统计

类别	已验证数量	已丢弃数量	通过率
dry_violation	318	262	54.8%
long_file	347	134	72.1%
lazy_class	383	37	91.2%
srp_violation	99	225	30.6%
missing_test	63	249	20.2%
god_function	208	56	78.8%
missing_abstraction	207	23	90.0%
god_class	179	46	79.6%
architecture	198	20	90.8%
test_quality	163	11	93.7%

数据使用示例

可通过 datasets 库加载数据，示例如下： python from datasets import load_dataset dataset = load_dataset("json", data_files="dpo_data.jsonl")

数据生成信息

生成日期: 2026-03-05
生成流水线: rigour-labs/driftbench RLAIF

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码质量分析是提升软件可维护性与可靠性的关键环节。Rigour RLAIF数据集的构建采用了强化学习从人类反馈中学习的方法论，通过精心设计的标注流程生成训练数据。该数据集包含3098条监督微调样本与1515条直接偏好优化样本，每一份数据均经过严格的验证筛选，整体验证率达到67.7%，确保了数据在代码质量评估任务中的准确性与代表性。

特点

该数据集聚焦于代码质量的多维度评估，涵盖了干燥原则违反、长文件、懒惰类、单一职责原则违反、缺失测试、上帝函数、缺失抽象、上帝类、架构问题及测试质量等十大核心类别。各类别的验证率分布呈现出显著差异，例如测试质量类别的验证率高达93.7%，而缺失测试类别仅为20.2%，这种分布反映了现实代码库中不同质量问题的普遍性与检测难度，为模型提供了层次分明的学习目标。

使用方法

该数据集专为代码质量分析模型的微调而设计，尤其适用于基于人类反馈的强化学习训练范式。使用者可通过Hugging Face的datasets库便捷加载数据，具体而言，调用load_dataset函数并指定JSON格式及数据文件路径即可。数据集可直接与trl等训练库集成，用于监督微调或直接偏好优化，助力开发能够精准识别代码异味、评估架构合理性的智能模型。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码质量分析一直是提升软件开发效率与可靠性的核心议题。Rigour RLAIF数据集由Rigour Labs于2026年创建，旨在通过强化学习从人类反馈中获取高质量的训练数据，专门用于微调代码质量分析模型。该数据集聚焦于识别代码中的常见缺陷，如违反DRY原则、文件过长、类设计懒惰、单一职责原则违反等，为自动化代码审查与优化提供了关键的数据支持。其构建基于严格的验证流程，覆盖了超过三千条监督微调样本与一千五百条直接偏好优化样本，显著推动了智能代码辅助工具的发展，并在软件维护与重构实践中展现出重要影响力。

当前挑战

该数据集致力于解决代码质量自动评估中的核心挑战，即如何准确识别与分类多样化的代码坏味道与设计缺陷，这些缺陷往往具有语义复杂性和上下文依赖性，传统规则方法难以全面覆盖。在构建过程中，数据收集与标注面临严峻挑战，包括从真实代码库中提取代表性样本、确保标注一致性与专业性，以及处理高噪声的原始数据。例如，数据集中某些类别如单一职责原则违反的验证率仅为30.6%，反映出标注过程中对抽象概念判定的困难。此外，平衡数据分布、避免偏见以及扩展至更广泛的编程语言与范式，亦是该数据集持续演进中需克服的关键难题。

常用场景

经典使用场景

在软件工程与代码质量分析领域，rigour-rlaif-data数据集为训练代码质量评估模型提供了关键支持。该数据集通过监督微调（SFT）和对齐偏好优化（DPO）配对，专门用于识别代码中的常见缺陷，如违反DRY原则、文件过长或类设计懒惰等问题。研究人员利用这些标注数据，能够构建出能够自动检测代码坏味道的模型，从而提升代码的可维护性与健壮性。

衍生相关工作

基于rigour-rlaif-data，研究社区衍生了一系列经典工作，例如开发更高效的代码质量微调流程、探索多任务学习在代码分析中的应用，以及构建结合RLAIF与DPO的端到端代码优化系统。这些工作进一步扩展了数据集的效用，推动了自动化软件工程工具在学术界与工业界的创新与落地。

数据集最近研究