instruction-backtranslation-curated

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/NilayR/instruction-backtranslation-curated

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过自我对齐过程生成的指令和输出对的数据集，包含经过质量评分的高质量指令输出对和全部生成的指令输出对及其评分和评分理由。数据集适用于大型语言模型的指令微调。

创建时间：

2025-07-16

原始信息汇总

数据集卡片：Instruction Backtranslation Curated Dataset

数据集名称

Instruction Backtranslation Curated Dataset

描述

该数据集包含指令-输出对，作为大型语言模型自对齐过程的一部分生成和筛选。包括一个高质量的合成指令-输出对的curated子集，以及包含所有生成对及其质量评分和推理的all_scored子集。

来源

该数据集采用“自对齐与指令回译”方法创建：

指令回译（自增强）：将LIMA数据集中单轮对话的子集输出输入到微调的“反向模型”（NilayR/llama2-7b-backward-instruction）中生成合成指令。
自筛选：这些合成的指令-输出对由大型语言模型（NilayR/llama2-7b-chat-hf）使用少量提示进行评估，按1-5分进行质量评分。

内容

数据集包含带有额外元数据的指令-输出对，格式为JSONL。每个条目包含以下字段：

instruction：模型需要遵循的指令（字符串）。
output：相应的响应或输出（字符串）。
score：评分LLM分配的数字质量分数（1-5）（int64）。
reasoning：评分LLM对分配分数的简要解释（字符串）。

子集

数据集分为两个子集：

curated：包含41个高质量指令-输出对，仅包含分数为4或更高的示例。该子集适用于指令调优。
all_scored：包含所有150个生成的指令-输出对，以及它们的分配分数和评分LLM提供的推理。该子集可用于自筛选过程的分析。

预期用途

该数据集主要用于大型语言模型的指令调优，特别是增强其遵循多样化指令的能力。curated子集适用于直接微调，而all_scored子集可用于进一步分析、研究自筛选方法或开发替代筛选策略。

加载方式

可以使用datasets库从Hugging Face加载数据集：

python from datasets import load_dataset

加载curated子集（用于指令调优的高质量示例）

curated_dataset = load_dataset("NilayR/instruction-backtranslation-curated", split="curated") print(curated_dataset)

加载all_scored子集（所有生成的示例及其评分）

all_scored_dataset = load_dataset("NilayR/instruction-backtranslation-curated", split="all_scored") print(all_scored_dataset)

示例访问

print(" Example from curated split:") print(curated_dataset[0])

print(" Example from all_scored split:") print(all_scored_dataset[0])

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量指令数据集的构建对语言模型的对齐至关重要。该数据集采用自对齐的指令回译方法，首先从LIMA数据集中选取单轮对话输出，通过微调的反向模型生成合成指令，随后利用大型语言模型进行自动化质量评估，基于少样本提示对每对指令-输出进行1至5分的评分，并附上评分理由，最终形成包含150个样本的完整集合。

使用方法

研究者可通过Hugging Face的datasets库直接加载两个数据子集：curated子集专用于指令微调，可直接融入模型训练流程；all_scored子集则支持自对齐机制的深入研究，用户可分析评分模式、开发过滤策略或探索质量评估模型的行为特性，为语言模型对齐研究提供多维数据支撑。

背景与挑战

背景概述

指令反向翻译精选数据集诞生于2023年，由研究者Nilay通过创新性的自对齐方法构建，旨在解决大语言模型指令跟随能力优化的核心问题。该数据集基于LIMA对话数据子集，采用经过微调的反向指令模型生成合成指令，并通过大语言模型进行自动化质量评分与推理标注。这种自增强与自筛选机制为指令调优领域提供了高质量的数据资源，显著提升了模型对多样化指令的理解与响应能力，对推动对话式人工智能的发展具有重要价值。

当前挑战

该数据集致力于应对大语言模型指令调优中高质量训练数据稀缺的核心挑战，其构建过程面临双重困难：一是反向指令生成的语义一致性与多样性平衡问题，要求合成指令既保持原始输出的语义连贯性又具备足够的指令变化；二是自动化质量评估的可靠性挑战，依赖大语言模型进行少样本评分需要确保评价标准的客观性与一致性，避免主观偏差影响数据筛选效果。

常用场景

经典使用场景

在自然语言处理领域，instruction-backtranslation-curated数据集通过反向翻译技术生成高质量的指令-输出对，为大型语言模型的指令微调提供核心训练素材。其精选的高质量数据子集特别适用于提升模型对复杂指令的理解与执行能力，广泛应用于对话系统、文本生成等任务的性能优化。

解决学术问题

该数据集有效解决了指令微调过程中高质量标注数据稀缺的学术难题，通过自对齐方法生成可信度评分的数据对，为模型对齐研究提供标准化评估基准。其创新性的自 curation 机制为数据质量自动评估开辟了新途径，显著提升了指令跟随任务的可靠性与可解释性。

实际应用

实际应用中，该数据集支撑了智能客服系统的指令理解模块开发，助力教育领域的自适应问答系统构建，并广泛应用于代码生成、创意写作等垂直领域的模型优化。企业可基于其分级评分机制快速筛选高质量训练样本，大幅降低人工标注成本并提升模型部署效率。

数据集最近研究