Proposed-Llama-3.1-En, Proposed-Gemma-2-En, Proposed-Llama-3.1-Ja, Proposed-Gemma-2-Ja

Name: Proposed-Llama-3.1-En, Proposed-Gemma-2-En, Proposed-Llama-3.1-Ja, Proposed-Gemma-2-Ja
Creator: 东京工业大学计算机科学系
Published: 2025-03-31 12:28:38
License: 暂无描述

arXiv2025-03-31 更新2025-04-03 收录

下载链接：

https://huggingface.co/datasets/tokyotech-llm/lmsys-chat-1m-synth

下载链接

链接失效反馈

官方服务：

资源简介：

本文构建了四个数据集，分别为Proposed-Llama-3.1-En、Proposed-Gemma-2-En、Proposed-Llama-3.1-Ja和Proposed-Gemma-2-Ja。这些数据集是基于人类编写的指令和通过开放权重的大型语言模型合成的响应构建的。数据集包含了从LMSYS-Chat-1M中提取的人类指令和利用Llama-3.1和Gemma-2模型合成的响应。这些数据集旨在用于指令微调，研究领域包括Surface-level editing、region-agnostic knowledge domain等。

This paper constructs four datasets, namely Proposed-Llama-3.1-En, Proposed-Gemma-2-En, Proposed-Llama-3.1-Ja, and Proposed-Gemma-2-Ja. These datasets are built upon human-written instructions and responses synthesized by open-weight large language models. The datasets contain human instructions extracted from LMSYS-Chat-1M and responses generated using Llama-3.1 and Gemma-2 models. These datasets are designed for instruction tuning, with target research areas including Surface-level editing, region-agnostic knowledge domain, etc.

提供机构：

东京工业大学计算机科学系

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

在构建指令调优数据集的过程中，本研究采用了一种创新的方法，即结合人类编写的指令与大型语言模型（LLM）生成的响应。具体而言，研究团队从LMSYS-Chat-1M数据集中提取了人类与聊天机器人交互的真实对话记录，筛选出非毒性内容后，将用户的首条发言作为指令。随后，利用开源的Llama-3.1-405B-Instruct和Gemma-2-27B-IT模型为每条指令生成响应，从而构建了高质量的（指令，响应）对。这种方法不仅确保了指令的多样性和真实性，还通过先进的LLM提升了响应的质量。

特点

该数据集的核心特点在于其独特的构建策略，即人类指令与机器响应的结合。这种策略充分发挥了人类在指令设计上的创造力和LLM在响应生成上的高效性。数据集覆盖了广泛的主题，且通过严格的过滤机制确保了内容的纯净性。此外，数据集支持多语言环境，特别是针对日语等非英语语言，通过翻译和本地化响应生成，进一步扩展了其应用范围。数据集的规模庞大，每个语言版本均包含超过45万条实例，为模型训练提供了丰富的资源。

使用方法

该数据集主要用于大型语言模型的指令调优，旨在提升模型遵循指令和生成高质量响应的能力。研究人员可通过全参数监督微调（SFT）的方式，利用数据集中的（指令，响应）对训练模型。具体操作包括使用Huggingface的transformers库，在多个GPU上分布式训练，采用AdamW优化器和余弦退火学习率调度。训练完成后，模型可在多轮对话基准测试（如MT-Bench）中进行评估，以验证其性能提升。此外，数据集还可用于跨语言能力研究，探索模型在不同语言环境下的适应性和知识迁移效果。

背景与挑战

背景概述

Proposed-Llama-3.1-En、Proposed-Gemma-2-En、Proposed-Llama-3.1-Ja、Proposed-Gemma-2-Ja是由东京工业大学与产业技术综合研究所等机构的研究团队于2025年构建的指令微调数据集。该研究旨在探索人类撰写指令与大型语言模型生成响应相结合的有效性，挑战了此前完全依赖模型自生成数据的范式。数据集基于真实人机对话平台LMSYS-Chat-1M的用户指令，分别采用Llama-3.1和Gemma-2两种开源大模型生成响应，涵盖英语和日语双语言版本。实验表明，采用该策略微调的模型在MT-Bench评估中超越现有公开数据集的表现，证实了人类原始指令在提升模型指令跟随能力方面的独特价值。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域问题方面，需解决多语言文化知识缺失难题——日语版本模型在文化特定知识任务表现显著弱于英语版本；构建过程方面，存在真实人类指令采集瓶颈，尤其非英语语种需依赖机器翻译引入潜在偏差。此外，响应生成需平衡开放权重模型的输出质量与计算资源消耗，如Gemma-2-27B-IT生成响应时需处理长文本重复问题。数据规模与质量的权衡也构成挑战，需设计自动评分机制从45万实例中筛选最优训练子集。

常用场景

经典使用场景

在自然语言处理领域，Proposed-Llama-3.1和Proposed-Gemma-2系列数据集通过结合人类编写的指令与大型语言模型生成的响应，为指令微调提供了高质量的语料。这些数据集特别适用于提升模型在跨语言任务中的表现，例如英语和日语的多轮对话生成、指令理解和执行能力。其独特的构建方式使得模型能够更准确地捕捉人类指令的细微差别，同时利用开放权重的语言模型生成多样化的响应，从而在对话系统、虚拟助手等场景中展现出卓越的性能。

衍生相关工作

该数据集衍生了一系列重要研究工作，特别是在多语言模型适配领域。例如，基于其构建方法开发的Llama-3.1-Swallow模型通过持续预训练显著提升了日语处理能力。相关研究还探索了指令微调在文化特定知识传递中的局限性，推动了跨文化适应性的新方法。在数据集构建技术方面，相关工作改进了响应质量评估和筛选机制，为后续大规模多语言数据集的创建提供了范例。这些衍生工作共同推动了开放权重语言模型在全球化应用中的发展。

数据集最近研究