helpSteer

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/Rafaelmdcarneiro/LLMDataHub

下载链接

链接失效反馈

官方服务：

资源简介：

一个由人类标注的RLHF数据集，包含有用性、正确性、连贯性、复杂性和冗余度的度量。

A human-annotated RLHF (Reinforcement Learning from Human Feedback) dataset, encompassing metrics of usefulness, correctness, coherence, complexity, and redundancy.

创建时间：

2024-05-15

原始信息汇总

数据集概述

数据集目标

本数据集旨在收集和提供高质量的训练语料，以支持大型语言模型（LLMs）的训练，特别是针对聊天机器人的开发和优化。

数据集分类

数据集根据用途和特性分为以下几类：

Alignment Datasets: 用于模型对齐的通用开放访问数据集。
Domain-specific Datasets: 特定领域的数据集。
Pretraining Datasets: 用于预训练的数据集。
Multimodal Datasets: 多模态数据集。

数据集详情

Alignment Datasets

helpSteer: 用于RLHF训练，包含37k实例，英语。
no_robots: 用于SFT训练，包含10k实例，英语。
Anthropic_HH_Golden: 用于SFT和RLHF训练，包含44.8k实例，英语。

Domain-specific Datasets

function_calling_extended: 用于提高模型API使用能力，包含高质量的人工创建数据，英语和代码。
AmericanStories: 用于预训练，英语，数据来自美国国会图书馆。
dolma: 用于预训练，包含3T tokens，用于语言模型预训练。

Pretraining Datasets

Linly-pretraining-dataset: 用于预训练，中文，大小为3.4GB。
SlimPajama: 用于预训练，主要为英语，是RedPajama的清洁和去重版本。

Multimodal Datasets

Puffin: 包含长上下文和多轮对话的对话数据集，约3k条记录，英语。
LongBench: 用于评估LLM的长上下文理解能力，包含17个任务，英语和中文。

数据集发布时间

数据集按月份分类，包括2023年7月、8月、9月和11月的发布数据。

数据集用途

数据集主要用于提升聊天机器人的对话质量、响应生成和语言理解能力，适用于研究人员和实践者根据需求选择合适的训练数据。

搜集汇总

数据集介绍

构建方式

helpSteer数据集通过人工标注的方式构建，专注于评估对话系统在帮助性、正确性、连贯性、复杂性和冗长性等方面的表现。该数据集包含37,000个实例，每个实例都经过人工评估，确保数据的高质量和多样性，从而为强化学习与人类反馈（RLHF）训练提供了坚实的基础。

特点

helpSteer数据集的主要特点在于其精细的人工标注和多维度的评估标准。通过提供帮助性、正确性、连贯性、复杂性和冗长性等多方面的评估，该数据集能够有效支持对话系统的优化和改进。此外，其规模适中，适合用于小规模实验和大规模训练，具有较高的实用性和灵活性。

使用方法

helpSteer数据集适用于强化学习与人类反馈（RLHF）训练，主要用于优化对话系统的响应质量。研究人员和开发者可以通过该数据集进行模型微调，提升模型在多轮对话中的表现。使用时，建议结合具体的训练框架，如Hugging Face的Transformers库，进行数据加载和模型训练。

背景与挑战

背景概述

helpSteer数据集是由NVIDIA团队于2023年11月发布，专门用于强化学习与人类反馈（RLHF）训练的高质量数据集。该数据集通过人工标注，涵盖了对话中的帮助性、正确性、连贯性、复杂性和冗长性等多个维度，旨在提升大型语言模型（LLM）在对话生成中的表现。作为LLM训练的重要资源，helpSteer数据集的发布填补了该领域在高质量对话数据上的空白，尤其在提升模型对人类指令的响应能力方面具有显著意义。

当前挑战

helpSteer数据集在构建过程中面临的主要挑战包括：1) 高质量的人工标注需求，确保数据集的准确性和可靠性；2) 多维度评估标准的制定，如何在帮助性、正确性、连贯性等方面进行有效量化；3) 数据集的规模与多样性平衡，既要保证数据量足够大以支持模型训练，又要确保对话内容的多样性以覆盖不同场景。此外，如何在RLHF训练中有效利用该数据集，进一步提升模型的对话生成能力，也是当前研究中的重要挑战。

常用场景

经典使用场景

helpSteer数据集主要用于强化学习与人类反馈（RLHF）训练场景，旨在通过人类标注的反馈数据来优化语言模型的对话能力。该数据集通过评估对话的有用性、正确性、连贯性、复杂性和冗长性，帮助模型在多轮对话中生成更加符合人类期望的响应。

实际应用

在实际应用中，helpSteer数据集可用于开发和优化智能客服、虚拟助手等对话系统。通过利用该数据集进行模型训练，系统能够更好地理解用户意图，生成自然且准确的回复，从而提升用户体验，减少人工干预的需求，广泛应用于电商、金融、医疗等多个领域。

衍生相关工作

基于helpSteer数据集，研究者们开发了多种改进对话系统的算法和模型。例如，一些研究工作利用该数据集进行强化学习模型的微调，提升了模型在多轮对话中的表现；另一些工作则通过分析数据集中的标注信息，提出了新的对话生成策略，进一步优化了对话系统的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集