attlab-rlhf

Hugging Face2026-05-18 更新2026-05-19 收录

下载链接：

https://huggingface.co/datasets/At-Tawheed/attlab-rlhf

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模、多任务、多模态（纯文本）的集合，专门用于训练和评估大型语言模型。它整合了21个不同的子数据集配置，涵盖广泛的应用场景。数据内容主要包括：1) 多语言指令遵循数据（如aya_multilingual），包含输入、目标输出、语言和用户ID；2) 对话与人类偏好数据（如capybara、hh_rlhf_full），包含多轮对话、模型生成的被选择与被拒绝的回复、以及人工评分，适用于RLHF/DPO训练；3) 代码生成与编程任务数据（如codefeedback、evol_codealpaca、magicoder、opencode_instruct_5m），包含编程问题、解决方案、测试用例和模型判断；4) 数学推理与解题数据（如metamath_qa、numina_math），包含数学问题、解答和思维链；5) 大规模真实对话数据（如lmsys_chat_1m、openhermes_2_5），包含多轮用户与助手的对话，并附有内容安全审核标签；6) 指令数据与质量评估数据（如magpie系列、helpsteer2），包含大量AI生成的指令-回复对，并带有任务类别、难度、意图、知识领域、多维度质量评分（如帮助性、正确性、连贯性）以及安全评估结果。数据集整体采用MIT许可证。数据规模从数千到数百万条样本不等，部分子集达到百万甚至五百万量级。数据字段丰富，除核心文本内容外，还包含语言代码、评分、模型元数据、生成配置参数、安全分类分数等多种辅助信息，适用于监督微调、偏好学习、代码能力训练、数学推理增强、对话生成以及模型安全性评估等多种NLP研究和开发任务。

This dataset is a large-scale, multi-task, multimodal (pure text) collection specifically designed for training and evaluating large language models. It integrates 21 different sub-dataset configurations, covering a wide range of application scenarios. The data content primarily includes: 1) Multilingual instruction-following data (e.g., aya_multilingual), containing inputs, target outputs, languages, and user IDs; 2) Dialogue and human preference data (e.g., capybara, hh_rlhf_full), containing multi-turn dialogues, model-generated selected and rejected responses, and human ratings, suitable for RLHF/DPO training; 3) Code generation and programming task data (e.g., codefeedback, evol_codealpaca, magicoder, opencode_instruct_5m), containing programming problems, solutions, test cases, and model judgments; 4) Mathematical reasoning and problem-solving data (e.g., metamath_qa, numina_math), containing math problems, answers, and chain-of-thought reasoning; 5) Large-scale real conversation data (e.g., lmsys_chat_1m, openhermes_2_5), containing multi-turn user-assistant dialogues with content safety moderation labels; 6) Instruction data and quality evaluation data (e.g., magpie series, helpsteer2), containing a large number of AI-generated instruction-response pairs, along with task categories, difficulty levels, intents, knowledge domains, multi-dimensional quality scores (e.g., helpfulness, correctness, coherence), and safety evaluation results. The dataset is licensed under MIT. The data scale ranges from thousands to millions of samples, with some subsets reaching millions or even five million levels. The data fields are rich, including not only core text content but also language codes, ratings, model metadata, generation configuration parameters, safety classification scores, and other auxiliary information. It is suitable for various NLP research and development tasks, such as supervised fine-tuning, preference learning, code capability training, mathematical reasoning enhancement, dialogue generation, and model safety evaluation.

创建时间：

2026-05-15

原始信息汇总

数据集详情总结：attlab-rlhf

基本信息

许可证: MIT License
数据集地址: https://huggingface.co/datasets/At-Tawheed/attlab-rlhf

数据集配置

该数据集包含多个配置子集，每个子集具有不同的特征和规模。以下是各配置的详细概述：

1. aya_multilingual

特征: inputs, targets, language, language_code, annotation_type, user_id
数据划分:
- 训练集: 202,362 个样本
数据集大小: 254.59 MB

2. capybara 与 capybara_dpo_7k

特征: source, conversation (包含 input, output), original_response, generation_prompt, raw_generation_responses, new_generations, prompt, chosen (包含 content, role), rejected (包含 content, role), rating_chosen, rating_rejected, chosen_model, rejected_model
数据划分:
- 训练集: 7,563 个样本
数据集大小: 348.79 MB

3. codefeedback 与 codefeedback_66k

特征: query, answer, resource, lang
数据划分:
- 训练集: 156,526 个样本
数据集大小: 356.43 MB

4. evol_codealpaca 与 evol_codealpaca_110k

特征: instruction, output
数据划分:
- 训练集: 111,272 个样本
数据集大小: 246.35 MB

5. fineweb_edu

特征: text, score
数据划分:
- 训练集: 40,950 个样本
数据集大小: 130.85 MB

6. helpsteer2

特征: prompt, response, helpfulness, correctness, coherence, complexity, verbosity
数据划分:
- 训练集: 20,324 个样本
数据集大小: 45.88 MB

7. hh_rlhf_full

特征: chosen, rejected
数据划分:
- 训练集: 160,800 个样本
数据集大小: 308.57 MB

8. lmsys_chat_1m

特征: conversation_id, model, conversation (包含 content, role), turn, language, openai_moderation (包含 categories, category_scores, flagged), redacted
数据划分:
- 训练集: 1,000,000 个样本
数据集大小: 2.63 GB

9. magicoder 与 magicoder_oss_75k

特征: lang, raw_index, index, seed, openai_fingerprint, problem, solution
数据划分:
- 训练集: 75,197 个样本
数据集大小: 192.04 MB

10. magpie_llama31_1m

特征: uuid, model, gen_input_configs (包含 temperature, top_p, input_generator, seed, pre_query_template), instruction, response, conversations (包含 from, value), task_category, other_task_category, task_category_generator, difficulty, intent, knowledge, difficulty_generator, input_quality, quality_explanation, quality_generator, llama_guard_2, reward_model, instruct_reward, min_neighbor_distance, repeat_count, min_similar_uuid, instruction_length, response_length, language
数据划分:
- 训练集: 1,000,000 个样本
数据集大小: 5.25 GB

11. magpie_llama33_1m

特征: (同 magpie_llama31_1m)
数据划分:
- 训练集: 1,000,000 个样本
数据集大小: 6.25 GB

12. magpie_llama3_1m

特征: uuid, model, gen_input_config (包含 temperature, top_p), input, output, conversations (包含 from, value), task_category, difficulty, intent, knowledge, input_quality, quality_explanation, llama_guard_2, reward_model, instruct_reward, base_output, base_reward, reward_difference, min_neighbor_distance, repeat_count, min_similar_uuid, input_length, output_length
数据划分:
- 训练集: 1,000,000 个样本
数据集大小: 7.25 GB

13. magpie_qwen25_1m

特征: (同 magpie_llama31_1m)
数据划分:
- 训练集: 1,000,000 个样本
数据集大小: 7.98 GB

14. magpie_reasoning_250k

特征: conversation_id, instruction, response, conversations (包含 from, value), gen_input_configs (包含 temperature, top_p, input_generator, seed, pre_query_template), gen_response_configs (包含 prompt, temperature, top_p, repetition_penalty, max_tokens, stop_tokens, output_generator, engine), intent, knowledge, difficulty, difficulty_generator, input_quality, quality_explanation, quality_generator, task_category, other_task_category, task_category_generator, language
数据划分:
- 训练集: 249,922 个样本
数据集大小: 4.07 GB

15. metamath_qa 与 metamathqa

特征: type, query, original_question, response
数据划分:
- 训练集: 395,000 个样本
数据集大小: 369.47 MB

16. numina_math 与 numina_math_cot

特征: source, problem, solution, messages (包含 content, role)
数据划分:
- 训练集: 859,494 个样本
数据集大小: 2.50 GB

17. oasst1_clean 与 oasst1_top_ranked

特征: message_id, parent_id, user_id, created_date, text, role, lang, review_count, review_result, deleted, rank, synthetic, model_name, detoxify (包含 toxicity, severe_toxicity, obscene, identity_attack, insult, threat, sexual_explicit), message_tree_id, tree_state, emojis (包含 name, count), labels (包含 name, value, count)
数据划分:
- 训练集: 17,972 个样本
数据集大小: 21.39 MB

18. opencode_instruct_5m

特征: id, input, output, domain, generation_algorithm, llm_judgement, unit_tests, tests_execution_status, average_test_score
数据划分:
- 训练集: 5,000,000 个样本
数据集大小: 19.06 GB

19. openhermes_2_5

特征: custom_instruction, topic, model_name, model, skip_prompt_formatting, category, conversations (包含 from, value, weight), views, language, id, title, idx, hash, avatarUrl, system_prompt, source
数据划分:
- 训练集: 1,001,551 个样本
数据集大小: 1.68 GB

总结

attlab-rlhf 数据集是一个包含 19 个配置子集 的大型综合数据集，涵盖了多种任务类型（如多语言对话、代码生成、数学推理、RLHF 偏好数据、指令微调等）。数据集总规模超过 50 GB，样本数量从数千到数百万不等，适用于训练和评估各类语言模型。

搜集汇总

数据集介绍

构建方式

attlab-rlhf数据集是一个大型多领域人类反馈语料库，整合了来自多个知名开源数据集的精炼子集。其构建方式包括对Aya多语言、Capybara对话、CodeFeedback代码、MetaMathQA数学推理等多种领域数据按照统一格式进行重构与筛选，最终形成包含超过千万条指令数据与偏好对的结构化集合。每个配置项如hh_rlhf_full、helpsteer2等均保留了原始数据的核心特征字段，如问题、回答、评分以及对话历史，并进行了质量过滤与去重处理。

特点

该数据集最显著的特点在于其极为丰富的多样性，横跨多语言翻译、代码生成、数学推理、开放性对话与安全性评估等多个维度。每个子集均配备有细粒度的元信息，例如语言标签、任务类型、难度等级以及来自奖励模型或人工标注的质量评分。特别是Magpie系列配置提供了基于Llama和Qwen等模型生成的百万级合成对话，包含了指令奖励分数、安全审核结果与类别标签，为偏好对齐与模型鲁棒性研究提供了高质量资源。

使用方法

使用attlab-rlhf时，研究者可通过Hugging Face Datasets库加载指定配置，例如`load_dataset('attlab-rlhf', 'capybara_dpo_7k')`获取7K规模的DPO偏好对。数据集支持直接用于监督微调（利用inputs与outputs字段）、强化学习人类反馈（利用chosen与rejected字段）以及奖励模型训练（利用rating_chosen与rating_rejected字段）。多语言与多任务属性使其成为训练通用对话模型或针对特定领域进行指令微调的理想选择。

背景与挑战

背景概述

attlab-rlhf数据集诞生于大语言模型与人类反馈强化学习（RLHF）技术蓬勃发展的背景下，由相关研究机构构建，旨在为偏好对齐提供多源、高质量的监督数据。该数据集整合了来自多种公开来源的指令数据与偏好对，涵盖对话、数学推理、代码生成及多语言交互等丰富场景，规模累计超过千万级样本。其核心研究问题聚焦于如何通过多样化的人类偏好信号，使语言模型在遵守指令、提升安全性及增强实用性之间取得平衡。作为社区中规模庞大且极具代表性的偏好对齐数据集之一，attlab-rlhf为RLHF、直接偏好优化（DPO）等算法的训练与评测提供了关键资源，有力推动了安全可控语言模型的发展。

当前挑战

该数据集面对的核心挑战在于，如何从异构源头中调和偏好判断的噪声与不一致性。不同子集如hh_rlhf_full、helpsteer2及oasst1等，其标注标准和打分尺度各异，直接拼接会损害奖励模型的泛化能力。构建过程中，需克服语言与任务分布的极端不均衡——例如magpie系列贡献了数百万英语样本，而多语言数据（如aya_multilingual）仅两万条，易导致模型对低资源语种的偏好建模失准。此外，巨量文本的清洗、去重和隐私脱敏计算资源消耗极大，而RewardBench等基准上的评估显示，现有偏好数据仍难以覆盖长尾有害请求，对复杂伦理情景的判别能力亟待提升。

常用场景

经典使用场景

在自然语言处理与人工智能对齐研究领域中，attlab-rlhf数据集扮演着至关重要的角色，它汇聚了来自多种来源、经过精心标注的指令数据与人类偏好反馈，为基于人类反馈的强化学习（RLHF）提供了大规模、多样化的训练资源。该数据集的经典使用场景在于训练奖励模型与策略模型，通过人类对模型生成结果的偏好排序来优化语言模型的行为。研究者常利用其包含的数十万乃至百万量级的对话样本、代码指令、数学推理题及多语言内容，让模型在指令遵循、安全对齐、诚实性等维度上学习人类期望的回应模式，从而显著提升模型在实际交互中的可控性与有用性。

衍生相关工作

基于attlab-rlhf数据集，学术界与工业界衍生出一系列具有深远影响的经典工作。在偏好对齐技术路线中，大量研究借鉴了其Capybara子集的结构，开创性地提出了直接偏好优化（DPO）及其变体，使模型在不依赖独立奖励模型的情况下也能高效学习人类偏好。以NuminaMath与MetaMathQA为代表的数学推理子集，催生了通过链式思维（CoT）与过程奖励模型提升LLM数学能力的系列方法。此外，Magpie系列百万级指令数据被广泛应用于指令微调与数据蒸馏研究，推动了从弱模型生成高质量训练数据这一范式的成熟。这些衍生工作不仅深化了对RLHF技术本质的理解，也为后续构建更具通用性的对齐框架提供了重要基准与数据支撑。

数据集最近研究