Swallow-Instruct-v0.1

Hugging Face2024-07-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/tokyotech-llm/Swallow-Instruct-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Swallow Instruct v0.1数据集用于监督微调Swallow v0.1模型系列。该数据集包含多个子数据集，如oasst2-top1-en和oasst1-21k-ja-imitation系列，分别包含5,334和21,000+条对话。数据格式为JSON，包含用户和助手的对话轮次。数据集的构建方法包括从OpenAssistant2提取最高评分的对话，以及使用机器翻译和Mixtral-8x7B-Instruct-v0.1生成日语对话。

The Swallow Instruct v0.1 dataset is designed for supervised fine-tuning of the Swallow v0.1 model family. It encompasses multiple sub-datasets, such as the oasst2-top1-en and oasst1-21k-ja-imitation series, which contain 5,334 and over 21,000 conversational turns respectively. All data follows the JSON format and consists of conversational exchanges between users and AI assistants. The construction of this dataset involves extracting top-rated dialogues from OpenAssistant2, as well as generating Japanese dialogues using machine translation and the Mixtral-8x7B-Instruct-v0.1 model.

创建时间：

2024-07-19

原始信息汇总

Swallow Instruct v0.1 数据集

该数据集用于 Swallow v0.1 模型系列的监督微调（SFT）。

模型索引

以下 Instruct 模型是使用该数据集创建的：

Llama-3-Swallow-8B-Instruct-v0.1
Llama-3-Swallow-70B-Instruct-v0.1
Swallow-7b-instruct-v0.1
Swallow-13b-instruct-v0.1
Swallow-70b-instruct-v0.1

注意：Swallow-MS-7b-instruct-v0.1 使用的数据不同。

统计信息

数据集	对话数量
oasst2-top1-en	5,334
oasst1-21k-ja-imitation_alpha	21,120
oasst1-21k-ja-imitation_beta	21,035

数据格式

数据结构如下：

json { "conversation": [ {"role": "user", "content": "USER_MESSAGE1"}, {"role": "assistant", "content": "ASSISTANT_MESSAGE1"}, {"role": "user", "content": "USER_MESSAGE2"}, {"role": "assistant", "content": "ASSISTANT_MESSAGE2"}, ... ] }

对于 SFT，建议仅计算助手响应的损失。

数据构建方法

oasst2-top1-en

我们从 OpenAssistant2 对话树中提取了评分最高的对话。

oasst1-21k-ja-imitation_alpha

我们使用了 llm-jp/oasst1-21k-ja 数据集，该数据集是 OpenAssistant1 的机器翻译。指令输入到 Mixtral-8x7B-Instruct-v0.1 以生成响应。提示格式遵循 Mixtral 的格式，使用了以下参数：

max_length: 4096 top_p: 0.95 temperature: 1.0 repetition_penalty: 1.0 do_sample: True

oasst1-21k-ja-imitation_beta

该数据集使用与 alpha 版本相同的参数，并附加了“日本語で応答してください。”（请用日语回答）到每个用户输入的末尾。

搜集汇总

数据集介绍

构建方式

Swallow-Instruct-v0.1数据集的构建基于多个子数据集，包括oasst2-top1-en和oasst1-21k-ja-imitation_alpha/beta。其中，oasst2-top1-en从OpenAssistant2对话树中提取了评分最高的对话，而oasst1-21k-ja-imitation_alpha/beta则基于OpenAssistant1的日文翻译版本，通过Mixtral-8x7B-Instruct-v0.1模型生成响应。构建过程中，采用了特定的生成参数，如max_length、top_p、temperature等，以确保生成内容的质量和多样性。

使用方法

Swallow-Instruct-v0.1数据集主要用于监督式微调（SFT）任务，特别适用于训练和优化大型语言模型。在使用时，建议仅对助手的响应计算损失，以提高模型的生成效果。数据集的结构化格式使得其易于集成到现有的训练流程中，用户可以通过加载JSON文件直接获取对话数据。此外，数据集的多语言特性使其能够广泛应用于跨语言对话系统、机器翻译等领域。

背景与挑战

背景概述

Swallow-Instruct-v0.1数据集由东京工业大学Okazaki实验室与YOKOTA实验室以及日本产业技术综合研究所（AIST）的人工智能研究中心共同开发，主要用于监督微调（SFT）Swallow系列模型。该数据集的核心研究问题在于提升多语言对话生成模型的性能，特别是在日语和英语的双语环境中。通过结合OpenAssistant1和OpenAssistant2的对话数据，并利用Mixtral-8x7B-Instruct-v0.1模型生成高质量的对话响应，该数据集为多语言对话系统的研究提供了重要的数据支持。其影响力不仅体现在模型性能的提升上，还为跨语言对话生成领域的研究提供了新的数据基准。

当前挑战

Swallow-Instruct-v0.1数据集在构建过程中面临多重挑战。首先，多语言对话生成模型的训练需要高质量的对话数据，而现有的公开数据集在语言覆盖率和对话质量上存在不足。其次，数据集的构建依赖于机器翻译和模型生成，这可能导致翻译误差和生成响应的不一致性，特别是在日语和英语的双语环境中。此外，如何确保生成的对话内容符合自然语言的使用习惯，同时保持上下文的连贯性，也是一个技术难点。最后，数据集的规模较大，处理和分析这些数据需要高效的算法和计算资源，这对研究团队的计算能力提出了较高的要求。

常用场景

经典使用场景

Swallow-Instruct-v0.1数据集主要用于监督微调（SFT）任务，特别是在多语言对话生成模型的训练中表现出色。该数据集通过包含高质量的日英双语对话，为模型提供了丰富的语言理解和生成能力。其结构化的对话格式使得模型能够更好地学习用户与助手之间的交互模式，从而在生成自然语言响应时表现出更高的准确性和流畅性。

解决学术问题

Swallow-Instruct-v0.1数据集解决了多语言对话生成模型在训练过程中数据稀缺和语言多样性不足的问题。通过整合OpenAssistant系列数据集的高质量对话，并结合机器翻译和人工生成的方法，该数据集为模型提供了多样化的语言样本，显著提升了模型在多语言环境下的表现。这一突破为跨语言自然语言处理研究提供了重要的数据支持。

实际应用

在实际应用中，Swallow-Instruct-v0.1数据集被广泛用于开发智能助手和客服系统。基于该数据集训练的模型能够处理复杂的多语言对话场景，适用于全球化的企业环境。例如，在跨国公司的客户支持系统中，这些模型能够无缝切换语言，提供高质量的响应，极大地提升了用户体验和服务效率。

数据集最近研究