tmp-lmsys

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/lhoestq/tmp-lmsys

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含会话信息，每个会话包括ID、使用的模型、会话内容（分为内容和角色两部分）、对话轮数、语言类型以及OpenAI的审查结果（包括是否涉及骚扰、仇恨、自我伤害、性内容和暴力等分类，以及对应的分数）。数据集还包含是否标记为有问题和是否经过编辑的标记。训练集包含100万条示例，数据集大小为2.5GB。

创建时间：

2025-09-05

原始信息汇总

数据集概述

基本信息

数据集名称: tmp-lmsys
存储位置: https://huggingface.co/datasets/lhoestq/tmp-lmsys
下载大小: 1,482,676,895 字节
数据集大小: 2,626,443,360 字节
数据分割: train
训练集样本数量: 1,000,000
训练集字节大小: 2,626,443,360 字节

数据结构

特征字段

conversation_id: 字符串类型，表示会话标识符
model: 字符串类型，表示模型名称
conversation: 列表类型，包含会话内容
- content: 字符串类型，表示消息内容
- role: 字符串类型，表示消息角色
turn: int64类型，表示对话轮次
language: 字符串类型，表示语言类型
openai_moderation: 列表类型，包含OpenAI审核信息
- categories: 结构体类型，包含各类别标记
  - harassment: 布尔类型
  - harassment/threatening: 布尔类型
  - hate: 布尔类型
  - hate/threatening: 布尔类型
  - self-harm: 布尔类型
  - self-harm/instructions: 布尔类型
  - self-harm/intent: 布尔类型
  - sexual: 布尔类型
  - sexual/minors: 布尔类型
  - violence: 布尔类型
  - violence/graphic: 布尔类型
- category_scores: 结构体类型，包含各类别分数
  - harassment: 浮点数类型
  - harassment/threatening: 浮点数类型
  - hate: 浮点数类型
  - hate/threatening: 浮点数类型
  - self-harm: 浮点数类型
  - self-harm/instructions: 浮点数类型
  - self-harm/intent: 浮点数类型
  - sexual: 浮点数类型
  - sexual/minors: 浮点数类型
  - violence: 浮点数类型
  - violence/graphic: 浮点数类型
- flagged: 布尔类型，表示是否被标记
redacted: 布尔类型，表示是否经过编辑处理

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能对话系统研究领域，tmp-lmsys数据集通过收集大规模多轮对话记录构建而成。其构建过程涉及从多样化对话场景中采样，每条数据均包含完整的对话标识、参与模型及对话内容，并细致标注了对话轮次与语言类型。为确保数据质量，还引入了开放式审核机制对内容进行多维度安全评估。

特点

该数据集的核心特点在于其丰富的结构化对话数据与严密的内容审核体系。每个对话实例不仅涵盖对话内容与角色信息，还包含详尽的审核标签，如骚扰、仇恨言论及暴力内容等十一类安全类别标注。数据集支持多语言对话分析，且通过布尔值与分数双重标注机制，为研究提供高精度的内容安全评估基准。

使用方法

研究人员可利用该数据集开展对话系统安全性、多轮对话建模及多语言处理研究。通过解析对话结构与审核标签，可训练或评估模型在内容安全过滤方面的性能。数据集支持基于对话轮次或语言类型的子集划分，同时其开放式审核指标为构建稳健的对话生成系统提供了重要参考维度。

背景与挑战

背景概述

对话系统研究领域近年来随着大语言模型的突破性进展而备受关注，tmp-lmsys数据集应运而生。该数据集由LMSYS机构构建，专注于记录真实用户与大语言模型之间的多轮对话交互数据。其核心研究问题在于深入理解人类与AI对话的动态特征，为模型优化提供高质量的训练与评估基准，对推动开放域对话系统的自然性与安全性具有重要影响力。

当前挑战

该数据集致力于解决开放域对话生成中的内容安全与质量评估挑战，具体包括模型输出的有害内容识别、多轮对话一致性保持以及跨语言语境下的适应性等问题。构建过程中面临数据规模庞大带来的存储与处理压力，多模态内容审核的复杂性，以及如何在保护用户隐私的前提下实现数据可用性等实际困难。

常用场景

经典使用场景

在大规模语言模型评估领域，tmp-lmsys数据集通过记录多轮对话交互数据，为模型对比研究提供了重要基准。研究者可借助该数据集分析不同模型在对话连贯性、知识准确性和响应相关性等方面的表现，进而系统评估模型的综合对话能力。

衍生相关工作

该数据集催生了多项对话系统领域的创新研究，包括基于多轮对话的模型性能基准测试框架、结合安全标注的负责任AI评估体系，以及跨语言对话质量迁移学习方案。这些工作显著丰富了对话系统的评估维度，为后续研究提供了重要方法论基础。

数据集最近研究