1-800-SHARED-TASKS/lmsys-chat-1m

Name: 1-800-SHARED-TASKS/lmsys-chat-1m
Creator: 1-800-SHARED-TASKS
Published: 2024-09-25 21:51:45
License: 暂无描述

Hugging Face2024-09-25 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/1-800-SHARED-TASKS/lmsys-chat-1m

下载链接

链接失效反馈

官方服务：

资源简介：

LMSYS-Chat-1M数据集包含100万条真实世界中的对话，涉及25种最先进的LLM模型。这些数据来源于Vicuna演示和Chatbot Arena网站，收集自2023年4月至8月期间的21万个唯一IP地址。每条对话样本包括对话ID、模型名称、OpenAI API JSON格式的对话文本、检测到的语言标签和OpenAI审核API标签。为了确保数据的安全发布，数据集已经移除了所有包含个人身份信息（PII）的对话，并包含了OpenAI审核API的输出。数据集特别保留了不安全的对话，以便研究人员可以研究LLM在真实世界使用中的安全问题以及OpenAI的审核过程。数据集还提供了基本统计信息、PII处理方式、独特性和潜在用途的详细说明，以及使用许可协议的具体条款。

The LMSYS-Chat-1M dataset contains one million real-world conversations with 25 state-of-the-art large language models (LLMs). The dataset was collected from 210,000 unique IP addresses on the Vicuna demo and Chatbot Arena website between April and August 2023. Each sample includes a conversation ID, model name, conversation text in OpenAI API JSON format, detected language tag, and OpenAI moderation API tag. The dataset is designed to help researchers study various aspects of LLM usage, including AI safety, content moderation, and model evaluation. The README also outlines the datasets license agreement, which includes terms for safety, non-endorsement, legal compliance, and non-identification. The dataset features redaction of personally identifiable information (PII) to protect user privacy, and it includes unsafe conversations to allow for research into safety-related questions. The dataset is intended for research and commercial purposes, with a focus on improving software, algorithms, and machine learning models.

提供机构：

1-800-SHARED-TASKS

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，大规模真实世界对话数据的稀缺性长期制约着模型评估与安全研究。LMSYS-Chat-1M数据集通过Vicuna演示与Chatbot Arena平台，系统采集了2023年4月至8月期间来自21万余独立IP地址的用户与25种前沿大语言模型的交互记录，最终汇聚成百万量级的对话样本。构建过程中严格遵循用户协议获取知情同意，并运用OpaquePrompts技术对人物姓名进行匿名化替换，以“NAME_1”等形式保护用户隐私。同时，数据集保留了经OpenAI内容审核API标记的不安全对话，为研究社区考察实际场景中的语言模型安全议题提供了原始素材。

使用方法

在自然语言处理研究中，该数据集可作为探索真实场景人机交互规律的实证基础。研究者可通过HuggingFace平台完成许可协议确认后加载数据，利用其结构化字段进行多维度分析：通过conversation字段还原对话序列，结合model字段比较不同模型的生成特性；借助openai_moderation中的分类标签开展内容安全研究，或基于language字段进行跨语言对话分析。需特别注意，数据集中包含未经滤除的不安全内容，使用前应建立合规的内容过滤机制。该资源适用于指令微调、安全对齐算法开发、对话评估体系构建等研究方向，相关成果需遵循数据许可协议中的非识别性与非传播性约束。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的时代，如何获取大规模、高质量的真实世界对话数据，成为推动模型评估、安全研究及性能优化的重要基石。LMSYS-Chat-1M数据集由加州大学伯克利分校等机构的研究团队于2023年创建，通过Vicuna演示平台及Chatbot Arena网站，在2023年4月至8月间收集了来自超过21万独立用户的百万条对话，涉及25种前沿LLM。该数据集的核心研究问题聚焦于理解真实场景下用户与模型的交互模式，为AI安全性分析、指令遵循模型训练以及评估方法改进提供了关键数据支撑，对对话人工智能领域产生了深远影响。

当前挑战

该数据集致力于解决真实世界对话场景下的大型语言模型评估与安全性研究这一复杂问题，其挑战体现在多个维度。在领域问题层面，如何准确捕捉并分析用户提示的多样分布、模型响应的安全性边界，以及跨语言、跨文化语境下的交互特性，构成了核心研究难点。在构建过程中，研究团队面临了确保用户隐私与数据效用平衡的严峻考验，例如通过OpaquePrompts进行人名脱敏可能引入数据质量损失；同时，数据集中保留的不安全对话内容虽为安全研究提供了素材，但也带来了伦理与使用风险，且未进行去污染处理可能包含基准测试题目，这些因素均对数据的纯净性与应用安全性提出了挑战。

常用场景

经典使用场景

在对话系统研究领域，LMSYS-Chat-1M数据集以其百万级真实世界对话的规模，为探索大型语言模型的实际交互模式提供了珍贵资源。该数据集最经典的应用场景在于训练和优化指令跟随模型，研究者能够利用其中丰富的多轮对话样本，深入分析用户提示的分布特征与语言风格，从而提升模型对复杂、多样化人类指令的理解与响应能力。

解决学术问题

该数据集有效解决了对话人工智能领域若干关键学术问题，特别是针对真实场景下用户与模型交互行为的量化分析。通过涵盖多种语言及潜在不安全内容的对话记录，它为研究AI安全性、内容审核机制以及模型偏差评估提供了实证基础。其意义在于推动了从受控基准测试向开放域真实应用研究的范式转变，对构建更稳健、可信的对话系统产生了深远影响。

实际应用

在实际应用层面，LMSYS-Chat-1M数据集为开发先进的聊天机器人及智能客服系统提供了训练与评估素材。企业及开发者可依据其中真实的用户查询与模型反馈，优化对话策略、改进请求分发算法，并针对多语言场景进行模型适配。同时，数据集附带的内容审核标签有助于在实际部署前识别并过滤潜在风险内容，提升产品服务的安全性与合规性。

数据集最近研究