dim/lmsys_chatbot_arena_conversations
收藏Hugging Face2023-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dim/lmsys_chatbot_arena_conversations
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question_id
dtype: string
- name: model_a
dtype: string
- name: model_b
dtype: string
- name: winner
dtype: string
- name: judge
dtype: string
- name: conversation_a
list:
- name: content
dtype: string
- name: role
dtype: string
- name: conversation_b
list:
- name: content
dtype: string
- name: role
dtype: string
- name: turn
dtype: int64
- name: anony
dtype: bool
- name: language
dtype: string
- name: tstamp
dtype: float64
- name: openai_moderation
struct:
- name: categories
struct:
- name: harassment
dtype: bool
- name: harassment/threatening
dtype: bool
- name: hate
dtype: bool
- name: hate/threatening
dtype: bool
- name: self-harm
dtype: bool
- name: self-harm/instructions
dtype: bool
- name: self-harm/intent
dtype: bool
- name: sexual
dtype: bool
- name: sexual/minors
dtype: bool
- name: violence
dtype: bool
- name: violence/graphic
dtype: bool
- name: category_scores
struct:
- name: harassment
dtype: float64
- name: harassment/threatening
dtype: float64
- name: hate
dtype: float64
- name: hate/threatening
dtype: float64
- name: self-harm
dtype: float64
- name: self-harm/instructions
dtype: float64
- name: self-harm/intent
dtype: float64
- name: sexual
dtype: float64
- name: sexual/minors
dtype: float64
- name: violence
dtype: float64
- name: violence/graphic
dtype: float64
- name: flagged
dtype: bool
- name: toxic_chat_tag
struct:
- name: roberta-large
struct:
- name: flagged
dtype: bool
- name: probability
dtype: float64
- name: t5-large
struct:
- name: flagged
dtype: bool
- name: score
dtype: float64
splits:
- name: train
num_bytes: 81159839
num_examples: 33000
download_size: 41573740
dataset_size: 81159839
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for "lmsys_chatbot_arena_conversations"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 名称: question_id
数据类型: 字符串
- 名称: model_a
数据类型: 字符串
- 名称: model_b
数据类型: 字符串
- 名称: winner
数据类型: 字符串
- 名称: judge
数据类型: 字符串
- 名称: conversation_a
列表:
- 名称: content
数据类型: 字符串
- 名称: role
数据类型: 字符串
- 名称: conversation_b
列表:
- 名称: content
数据类型: 字符串
- 名称: role
数据类型: 字符串
- 名称: turn
数据类型: int64
- 名称: anony
数据类型: bool
- 名称: language
数据类型: 字符串
- 名称: tstamp
数据类型: float64
- 名称: openai_moderation
结构:
- 名称: categories
结构:
- 名称: harassment
数据类型: bool
- 名称: harassment/threatening
数据类型: bool
- 名称: hate
数据类型: bool
- 名称: hate/threatening
数据类型: bool
- 名称: self-harm
数据类型: bool
- 名称: self-harm/instructions
数据类型: bool
- 名称: self-harm/intent
数据类型: bool
- 名称: sexual
数据类型: bool
- 名称: sexual/minors
数据类型: bool
- 名称: violence
数据类型: bool
- 名称: violence/graphic
数据类型: bool
- 名称: category_scores
结构:
- 名称: harassment
数据类型: float64
- 名称: harassment/threatening
数据类型: float64
- 名称: hate
数据类型: float64
- 名称: hate/threatening
数据类型: float64
- 名称: self-harm
数据类型: float64
- 名称: self-harm/instructions
数据类型: float64
- 名称: self-harm/intent
数据类型: float64
- 名称: sexual
数据类型: float64
- 名称: sexual/minors
数据类型: float64
- 名称: violence
数据类型: float64
- 名称: violence/graphic
数据类型: float64
- 名称: flagged
数据类型: bool
- 名称: toxic_chat_tag
结构:
- 名称: roberta-large
结构:
- 名称: flagged
数据类型: bool
- 名称: probability
数据类型: float64
- 名称: t5-large
结构:
- 名称: flagged
数据类型: bool
- 名称: score
数据类型: float64
拆分:
- 名称: train
字节数: 81159839
样本数: 33000
下载大小: 41573740
数据集大小: 81159839
配置:
- 配置名称: default
数据文件:
- 拆分: train
路径: data/train-*
# 'lmsys_chatbot_arena_conversations'数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
dim
原始信息汇总
数据集概述
数据集信息
- 特征列表:
question_id: 字符串类型model_a: 字符串类型model_b: 字符串类型winner: 字符串类型judge: 字符串类型conversation_a: 列表类型,包含content(字符串类型)和role(字符串类型)conversation_b: 列表类型,包含content(字符串类型)和role(字符串类型)turn: 64位整数类型anony: 布尔类型language: 字符串类型tstamp: 64位浮点数类型openai_moderation: 结构类型,包含categories(结构类型,包含多个布尔类型字段)和category_scores(结构类型,包含多个64位浮点数字段)以及flagged(布尔类型)toxic_chat_tag: 结构类型,包含roberta-large(结构类型,包含flagged(布尔类型)和probability(64位浮点数类型))和t5-large(结构类型,包含flagged(布尔类型)和score(64位浮点数类型))
数据集分割
- 训练集:
- 字节数: 81,159,839
- 样本数: 33,000
数据集大小
- 下载大小: 41,573,740 字节
- 数据集大小: 81,159,839 字节
配置信息
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
在人工智能对话系统评估领域,lmsys_chatbot_arena_conversations数据集的构建采用了众包平台上的对抗性对话收集机制。该机制通过在线竞技场形式,邀请真实用户提交查询问题,并随机分配两个不同的对话模型生成回复,随后由用户担任裁判,匿名评选出更优的回复作为胜者。数据采集过程涵盖了多轮对话交互,并记录了完整的时间戳、语言类型及匿名化标识,同时引入了OpenAI内容审核与毒性检测模型对对话内容进行安全标注,确保了数据来源的多样性与质量控制的严谨性。
特点
该数据集的核心特征在于其结构化的多模型对话比较框架,每条数据均包含两个独立模型对同一查询的完整对话记录,并附有用户判定的胜负结果。数据字段设计精细,不仅涵盖对话内容与角色分配,还整合了丰富的元数据,如对话轮次、时间戳及多语言标识。尤为突出的是,数据集引入了双重安全过滤机制,通过OpenAI的内容分类评分与基于RoBERTa、T5等模型的毒性检测标签,为研究社区提供了兼具对话质量评估与安全分析价值的高维度语料。
使用方法
研究人员可利用该数据集开展对话模型的基准测试与对比分析,通过提取conversation_a与conversation_b字段进行响应质量评估,并结合winner字段构建偏好学习或强化学习训练目标。在安全性与伦理研究方面,openai_moderation与toxic_chat_tag字段支持对生成内容进行风险分类与毒性检测模型的验证。此外,数据集支持按语言、匿名性及时间维度进行切片分析,为跨语言对话系统演进与用户偏好动态研究提供实证基础。
背景与挑战
背景概述
在人工智能对话系统迅猛发展的浪潮中,如何客观、高效地评估不同模型的性能成为学术界与工业界共同关注的核心议题。LMSYS Chatbot Arena Conversations数据集应运而生,由加州大学伯克利分校等机构的研究团队于2023年创建,旨在通过大规模、众包式的人机对话对战平台,收集真实用户与多种大语言模型交互的对话数据及偏好评判。该数据集的核心研究问题聚焦于构建一个开放、动态的基准测试环境,以推动对话系统在实用性、安全性与人性化方面的进步,对自然语言处理领域的模型评估与对齐研究产生了深远影响。
当前挑战
该数据集致力于解决对话系统评估中主观性强、基准单一的长期挑战,其构建过程面临多重考验。在领域层面,如何设计公平且能捕捉模型细微差异的评估机制是一大难题,同时需确保评判能涵盖多样性、安全性及事实准确性等多维度标准。在数据构建过程中,挑战主要源于众包数据质量的参差不齐,包括用户提问的随意性、评判标准的主观偏差,以及对话中可能隐含的有害内容,这要求团队投入大量资源进行数据清洗、去偏与安全过滤,以保障数据集的可靠性与研究价值。
常用场景
经典使用场景
在对话系统评估领域,lmsys_chatbot_arena_conversations数据集通过收集用户与多种聊天机器人的真实交互记录,为模型性能的横向比较提供了宝贵资源。该数据集的核心应用场景在于支持基于人类偏好的自动化评估,研究者能够利用其中标注的胜负结果,构建高效的基准测试框架,以衡量不同模型在开放域对话中的综合表现。
实际应用
在实际部署层面,该数据集为企业和开发者优化聊天机器人产品提供了直接参考。工程团队可依据模型在竞技场中的表现数据,筛选出响应更自然、更符合用户期待的对话引擎,进而提升客服系统、虚拟助手等应用的用户满意度。同时,其内置的毒性检测标签也有助于在实际应用中规避风险,增强系统的安全性与合规性。
衍生相关工作
围绕该数据集,学术界已衍生出一系列经典研究工作,例如基于Elo评分系统构建模型排行榜,以及开发更精细的对话质量评估指标。这些工作不仅深化了对模型能力边界的理解,还催生了新的评估方法论,如利用对抗性测试揭示模型弱点,从而持续推动对话人工智能向更稳健、更智能的方向演进。
以上内容由遇见数据集搜集并总结生成



