instruction-backtranslation-curated
收藏数据集卡片:Instruction Backtranslation Curated Dataset
数据集名称
Instruction Backtranslation Curated Dataset
描述
该数据集包含指令-输出对,作为大型语言模型自对齐过程的一部分生成和筛选。包括一个高质量的合成指令-输出对的curated子集,以及包含所有生成对及其质量评分和推理的all_scored子集。
来源
该数据集采用“自对齐与指令回译”方法创建:
- 指令回译(自增强):将LIMA数据集中单轮对话的子集输出输入到微调的“反向模型”(NilayR/llama2-7b-backward-instruction)中生成合成指令。
- 自筛选:这些合成的指令-输出对由大型语言模型(NilayR/llama2-7b-chat-hf)使用少量提示进行评估,按1-5分进行质量评分。
内容
数据集包含带有额外元数据的指令-输出对,格式为JSONL。每个条目包含以下字段:
instruction:模型需要遵循的指令(字符串)。output:相应的响应或输出(字符串)。score:评分LLM分配的数字质量分数(1-5)(int64)。reasoning:评分LLM对分配分数的简要解释(字符串)。
子集
数据集分为两个子集:
curated:包含41个高质量指令-输出对,仅包含分数为4或更高的示例。该子集适用于指令调优。all_scored:包含所有150个生成的指令-输出对,以及它们的分配分数和评分LLM提供的推理。该子集可用于自筛选过程的分析。
预期用途
该数据集主要用于大型语言模型的指令调优,特别是增强其遵循多样化指令的能力。curated子集适用于直接微调,而all_scored子集可用于进一步分析、研究自筛选方法或开发替代筛选策略。
加载方式
可以使用datasets库从Hugging Face加载数据集:
python from datasets import load_dataset
加载curated子集(用于指令调优的高质量示例)
curated_dataset = load_dataset("NilayR/instruction-backtranslation-curated", split="curated") print(curated_dataset)
加载all_scored子集(所有生成的示例及其评分)
all_scored_dataset = load_dataset("NilayR/instruction-backtranslation-curated", split="all_scored") print(all_scored_dataset)
示例访问
print(" Example from curated split:") print(curated_dataset[0])
print(" Example from all_scored split:") print(all_scored_dataset[0])




