lmsys-chat-1m-synth

Name: lmsys-chat-1m-synth
Creator: tokyotech-llm
Published: 2024-10-28 10:18:46
License: 暂无描述

Hugging Face2024-10-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/tokyotech-llm/lmsys-chat-1m-synth

下载链接

链接失效反馈

官方服务：

资源简介：

LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En 是一个日语和英语的合成对话数据集，源自 LMSYS-Chat-1M 数据集。它包括由 Llama 3.1 405B Instruct 生成的用户指令和助手响应。日语部分包含从原始数据集翻译的用户指令和由 Llama 3.1 合成的助手响应。英语部分使用原始的用户指令和相应的助手响应。数据集还包括由 Llama 3.1 70B Instruct 注释的偏好分数。访问日语翻译需要同意 LMSYS-Chat-1M 数据集许可协议，并使用提供的密钥解密数据。助手响应根据 LLAMA 3.1 社区许可协议分发。

LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En is a synthetic dialogue dataset for Japanese and English, derived from the LMSYS-Chat-1M dataset. It includes user instructions and assistant responses generated by Llama 3.1 405B Instruct. The Japanese subset contains user instructions translated from the original dataset and assistant responses synthesized by Llama 3.1. The English subset uses the original user instructions and their corresponding assistant responses. The dataset also includes preference scores annotated by Llama 3.1 70B Instruct. Access to the Japanese translation requires agreeing to the LMSYS-Chat-1M dataset license agreement and using the provided key to decrypt the data. Assistant responses are distributed under the Llama 3.1 Community License Agreement.

提供机构：

tokyotech-llm

创建时间：

2024-10-24

搜集汇总

数据集介绍

构建方式

LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En数据集是基于LMSYS-Chat-1M数据集构建的日英双语对话数据集。其构建过程包括从LMSYS-Chat-1M中提取用户指令，并通过DeepL翻译工具将其转化为日语版本。随后，使用Llama 3.1 405B Instruct模型自动生成助手的响应，日语部分每个用户指令生成六个响应，而英语部分则生成一个响应。此外，数据集还包含了由Llama 3.1 70B Instruct模型标注的偏好评分，以增强数据的多样性和实用性。

使用方法

使用该数据集时，用户需首先接受LMSYS-Chat-1M数据集的许可协议，并通过脚本下载和解密日语用户指令。随后，将生成的助手响应与原始数据集进行合并，形成完整的合成数据集。用户还可以选择将数据集转换为SFT格式，以便于指令调优任务。数据集的脚本和工具提供了灵活的操作方式，支持用户根据需求进行定制化处理。

背景与挑战

背景概述

LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En数据集是一个基于LMSYS-Chat-1M的日英双语对话数据集，由Llama 3.1模型生成。该数据集由日本东京工业大学的研究团队开发，旨在为自然语言处理领域提供高质量的合成对话数据。数据集的核心研究问题在于如何通过机器翻译和自动生成技术，扩展和丰富现有的对话数据集，以支持多语言环境下的模型训练与评估。该数据集的创建时间为2023年，主要研究人员包括Lianmin Zheng等，其影响力体现在为日英双语对话模型的开发提供了重要的数据支持，推动了跨语言对话系统的研究进展。

当前挑战

LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En数据集在构建过程中面临多重挑战。首先，机器翻译的质量直接影响日文用户指令的准确性，尽管使用了DeepL进行翻译，但仍可能存在语义偏差或文化差异。其次，自动生成的助手响应依赖于Llama 3.1模型，其生成的内容可能缺乏多样性和上下文一致性，尤其是在多轮对话场景中。此外，数据集的构建需严格遵守原始LMSYS-Chat-1M的许可协议，包括对日文指令的加密和解密流程，这增加了数据获取和使用的复杂性。最后，数据集的应用场景主要集中在指令微调（instruction tuning）领域，如何有效利用偏好评分优化模型性能仍是一个亟待解决的问题。

常用场景

经典使用场景

LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En数据集在自然语言处理领域中被广泛应用于多语言对话生成任务。该数据集通过Llama 3.1模型生成的日英双语对话数据，为研究人员提供了丰富的语料库，用于训练和评估多语言对话系统。特别是在跨语言对话生成和指令理解任务中，该数据集展现了其独特的价值，帮助模型在不同语言环境下实现更流畅的对话交互。

解决学术问题

该数据集有效解决了多语言对话生成中的语料稀缺问题，尤其是在日语和英语之间的跨语言对话生成任务中。通过提供大量高质量的合成对话数据，研究人员能够更好地训练和优化多语言对话模型，提升其在跨语言环境下的表现。此外，数据集中的偏好评分也为对话生成模型的优化提供了重要参考，帮助模型生成更符合用户期望的响应。

实际应用

在实际应用中，LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En数据集被广泛用于开发多语言智能助手和客服系统。通过利用该数据集，企业能够构建支持日英双语对话的智能系统，提升用户体验和服务效率。此外，该数据集还可用于教育领域，帮助开发多语言学习工具，支持学生在不同语言环境下的学习需求。

数据集最近研究