five

AarushSah/lmsys-chat-1m|自然语言处理数据集|AI安全数据集

收藏
hugging_face2024-05-08 更新2024-06-12 收录
自然语言处理
AI安全
下载链接:
https://hf-mirror.com/datasets/AarushSah/lmsys-chat-1m
下载链接
链接失效反馈
资源简介:
LMSYS-Chat-1M数据集包含一百万个与25个最先进的LLM(大型语言模型)的真实世界对话。该数据集从2023年4月至8月,在[Vicuna演示和聊天机器人竞技场网站](https://chat.lmsys.org/)上从210,000个独特的IP地址收集。每个样本包括对话ID、模型名称、OpenAI API JSON格式的对话文本、检测到的语言标签和OpenAI内容审核API标签。为确保数据的安全发布,已尽最大努力删除包含个人身份信息(PII)的所有对话,并保留了不安全的对话,以便研究人员可以研究与LLM在现实世界场景中的使用以及OpenAI内容审核过程相关的安全问题。
提供机构:
AarushSah
原始信息汇总

数据集概述

基本信息

  • 数据集名称: LMSYS-Chat-1M
  • 数据集大小: 1M<n<10M
  • 任务类别: conversational
  • 数据集许可证: LMSYS-Chat-1M Dataset License Agreement

数据集内容

  • 包含内容: 一百万个真实世界对话,涉及25个先进的LLMs。
  • 收集来源: 从Vicuna demo和Chatbot Arena网站收集,覆盖210K独特IP地址。
  • 收集时间: 2023年4月至8月。
  • 数据结构:
    • conversation_id: 字符串
    • model: 字符串
    • conversation:
      • content: 字符串
      • role: 字符串
    • turn: 整数
    • language: 字符串
    • openai_moderation:
      • categories: 结构体,包含多种分类的布尔值
      • category_scores: 结构体,包含多种分类的浮点数
      • flagged: 布尔值
    • redacted: 布尔值

数据集统计

  • 对话总数: 1,000,000
  • 模型数量: 25
  • 用户数量: 210,479
  • 语言种类: 154
  • 平均每样本轮数: 2.0
  • 平均每提示令牌数: 69.5
  • 平均每响应令牌数: 214.5

数据集使用

  • 研究目的: 帮助AI研究社区解答关于真实世界用户提示的特征和分布、AI安全和内容审核、训练指令跟随模型、改进和评估LLM评估方法、模型选择和请求分发算法等重要问题。
  • 许可证要求: 用户需同意LMSYS-Chat-1M Dataset License Agreement,该协议规定了数据集的使用条件,包括安全性和审核、非认可、法律遵从性、模型特定条款、非识别、禁止转移、删除请求权、终止条款和责任限制。

数据集重构

  • 重构方法: 与OpaquePrompts团队合作,对数据集中的个人姓名进行重构,以保护用户隐私。
  • 重构示例: 原始文本中的姓名如"Mary"和"James"将被替换为"NAME_1"和"NAME_2"。
  • 重构影响: 可能影响数据质量,偶尔导致不正确的重构。

数据集下载和大小

  • 下载大小: 1488850250字节
  • 数据集大小: 2626438904字节
  • 训练集大小: 2626438904字节,包含1,000,000个样本。

引用信息

@misc{zheng2023lmsyschat1m, title={LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset}, author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Tianle Li and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zhuohan Li and Zi Lin and Eric. P Xing and Joseph E. Gonzalez and Ion Stoica and Hao Zhang}, year={2023}, eprint={2309.11998}, archivePrefix={arXiv}, primaryClass={cs.CL} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
AarushSah/lmsys-chat-1m数据集通过收集在[Vicuna demo和Chatbot Arena网站](https://chat.lmsys.org/)上的210K个独立IP地址产生的100万条真实世界对话构建而成,时间跨越2023年4月至8月。每个样本包含一个会话ID、模型名称、以OpenAI API JSON格式存储的对话文本、检测到的语言标签以及OpenAI内容审核API标签。
特点
本数据集的特点在于其规模宏大、来源真实,覆盖了25种最先进的语言模型,涉及154种语言,平均每个样本的对话轮数为2.0,提示平均令牌数为69.5,响应平均令牌数为214.5。数据集包含敏感内容,并经过人工审核以去除个人识别信息,同时提供内容审核标签以供研究者分析。
使用方法
使用该数据集前,用户需同意[LMSYS-Chat-1M数据集许可协议](https://huggingface.co/datasets/lmsys/lmsys-chat-1m#lmsys-chat-1m-dataset-license-agreement)。数据集可通过HuggingFace平台下载,并支持Python等编程语言的直接调用。用户需注意数据使用规范,并在研究或商业应用中遵循相关法律法规。
背景与挑战
背景概述
LMSYS-Chat-1M数据集,由Lianmin Zheng等研究人员于2023年创建,旨在为人工智能研究社区提供一个大规模的真实世界对话数据集。该数据集包含了100万条与25种最先进的大型语言模型(LLM)的实际对话记录,收集自210,479个独特的IP地址,跨越了154种语言。这些对话记录是在2023年4月至8月期间,通过Vicuna演示和Chatbot Arena网站获取的。数据集的核心研究问题是探索真实世界用户提示的特征和分布、AI安全与内容审查、训练指令遵循模型、改进和评估LLM评估方法以及模型选择和请求调度算法等。该数据集在学术界和工业界都产生了广泛的影响力,为相关领域的研究提供了宝贵的资源。
当前挑战
在构建LMSYS-Chat-1M数据集的过程中,研究人员面临了多项挑战。首先,确保用户隐私是至关重要的,因此与OpaquePrompts团队合作对涉及个人姓名的对话进行了匿名处理。其次,数据集中包含了一些不安全的对话,这可能对用户造成不适或引发争议,因此研究人员引入了OpenAI的内容审查API以识别和标注这些内容。此外,数据集的多样性和真实性带来了数据清洗和标注的挑战,同时也对数据的使用和分发提出了严格的法律和伦理要求,以确保数据的安全和合规使用。
常用场景
经典使用场景
在自然语言处理领域,AarushSah/lmsys-chat-1m数据集以其庞大的真实世界对话样本集合,成为研究对话系统性能的重要资源。该数据集被广泛用于训练和评估大型语言模型,以模拟和优化与人类用户的交互过程,进而提升对话系统的自然度和准确性。
解决学术问题
该数据集解决了学术研究中关于对话系统真实交互数据缺乏的问题,为研究人员提供了深入了解用户在与大型语言模型互动中的行为模式和需求的机会。此外,它还助力于AI安全性和内容审核领域的研究,通过包含的敏感内容标签,为研究如何构建更安全、更符合道德标准的AI系统提供了实证数据。
衍生相关工作
基于该数据集,衍生出了一系列相关研究工作,包括但不限于对话系统的安全性分析、内容审核机制的改进、以及对话生成模型的性能评估。这些研究进一步推动了对话系统领域的发展,促进了人工智能技术在真实世界应用中的可靠性和有效性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录