LMSYS-Chat-1M

arXiv2024-03-11 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/lmsys/lmsys-chat-1m

下载链接

链接失效反馈

资源简介：

LMSYS-Chat-1M是由加州大学伯克利分校的研究团队创建的大型语言模型对话数据集，包含一百万条真实世界的对话记录。该数据集通过LMSYS项目收集，涵盖了25个最先进的语言模型，并从210,000个独特的IP地址中收集。数据集内容丰富，包括对话的收集过程、基本统计数据和主题分布，强调了其多样性、原创性和规模。该数据集的应用领域广泛，包括开发内容审核模型、构建安全基准、训练指令遵循模型以及创建挑战性基准问题，旨在理解和推进大型语言模型的能力。

LMSYS-Chat-1M is a large language model (LLM) dialogue dataset created by a research team at the University of California, Berkeley, containing one million real-world conversation records. Collected via the LMSYS project, this dataset covers 25 state-of-the-art language models and is sourced from 210,000 unique IP addresses. The dataset features rich content including the data collection process, basic statistical data, and topic distribution, highlighting its diversity, originality, and scale. It has a wide range of application scenarios, such as developing content moderation models, building safety benchmarks, training instruction-following models, and creating challenging benchmark questions, aiming to advance the understanding and capabilities of large language models.

提供机构：

加州大学伯克利分校

创建时间：

2023-09-21

搜集汇总

数据集介绍

构建方式

LMSYS-Chat-1M 数据集的构建方式独具匠心，通过创建一个免费在线 LLM 服务，收集了 25 种最先进的 LLM 与用户的真实对话数据。为了保持用户持续的兴趣，研究人员还开发了一个游戏化平台 Chatbot Arena，并通过定期发布流行 LLM 的排行榜来激励用户使用该服务。最终，LMSYS-Chat-1M 包含了超过 100 万条用户对话，涵盖丰富的语言和话题。

特点

LMSYS-Chat-1M 数据集具有几个显著特点。首先，它规模庞大，包含 100 万条真实对话，这使得它成为研究 LLM 与用户交互的理想资源。其次，它涵盖了多种 LLM，包括开源和专有模型，从而提供了对不同模型之间差异的深入见解。此外，该数据集的语言和话题多样，涵盖了从编程到一般知识等各种领域。最后，LMSYS-Chat-1M 还包含了一些被认为是不安全的内容，这为研究 LLM 的安全性和鲁棒性提供了宝贵资源。

使用方法

LMSYS-Chat-1M 数据集的使用方法多样。它可以用于开发内容审核模型，训练指令跟随模型，创建具有挑战性的基准测试，以及研究 LLM 的安全性和鲁棒性。例如，研究人员可以使用该数据集来微调现有的小 LLM，使其成为功能强大的内容审核员，其性能与 GPT-4 相当。此外，该数据集还可以用于构建新的基准测试，以评估 LLM 在现实世界场景中的表现。

背景与挑战

背景概述

随着大型语言模型（LLM）在各个领域的广泛应用，研究人类与LLM在现实场景中的交互方式变得越来越重要。LMSYS-Chat-1M是一个大规模的数据集，包含了一百万个真实世界的用户与25种最先进的LLM之间的对话。该数据集于2023年4月至8月期间，从210K个独特的IP地址收集，涵盖了多种语言和主题，展现了其多样性、原创性和规模。LMSYS-Chat-1M数据集的创建填补了研究社区在LLM用户交互数据方面的空白，为理解和推进LLM能力提供了宝贵的资源。

当前挑战

尽管LMSYS-Chat-1M数据集具有诸多优势，但也存在一些挑战。首先，数据集的用户分布存在偏差，主要用户群体是LLM爱好者和研究人员，可能无法完全代表更广泛的用户群体。其次，数据集中可能包含重复和低质量的数据，需要进一步处理和分析。此外，数据集缺乏人工偏好标注，需要进一步研究和探索。

常用场景

经典使用场景

LMSYS-Chat-1M数据集为研究人类与大型语言模型（LLM）的交互提供了宝贵的资源。该数据集包含100万条真实世界的对话，涉及25种最先进的LLM，涵盖了广泛的语言和话题。这些对话来自210K个独特的IP地址，在Vicuna demo和Chatbot Arena网站上收集。LMSYS-Chat-1M数据集的多样性、原创性和规模使其成为开发内容审核模型、构建安全基准、训练指令遵循模型以及创建具有挑战性的基准问题的理想选择。

衍生相关工作

LMSYS-Chat-1M数据集的发布为LLM研究开辟了新的方向。该数据集可以用于开发模型选择和请求缓存算法，以优化LLM服务的性能。此外，该数据集还可以用于训练具有强化学习人类反馈（RLHF）和强化学习辅助指示（RLAIF）的更好模型，以提高LLM的性能。此外，LMSYS-Chat-1M数据集还可以用于研究数据选择和策展算法、数据隐私和AI安全性等问题。

数据集最近研究