dim/lmsys_chatbot_arena_conversations

Hugging Face2023-11-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dim/lmsys_chatbot_arena_conversations

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question_id dtype: string - name: model_a dtype: string - name: model_b dtype: string - name: winner dtype: string - name: judge dtype: string - name: conversation_a list: - name: content dtype: string - name: role dtype: string - name: conversation_b list: - name: content dtype: string - name: role dtype: string - name: turn dtype: int64 - name: anony dtype: bool - name: language dtype: string - name: tstamp dtype: float64 - name: openai_moderation struct: - name: categories struct: - name: harassment dtype: bool - name: harassment/threatening dtype: bool - name: hate dtype: bool - name: hate/threatening dtype: bool - name: self-harm dtype: bool - name: self-harm/instructions dtype: bool - name: self-harm/intent dtype: bool - name: sexual dtype: bool - name: sexual/minors dtype: bool - name: violence dtype: bool - name: violence/graphic dtype: bool - name: category_scores struct: - name: harassment dtype: float64 - name: harassment/threatening dtype: float64 - name: hate dtype: float64 - name: hate/threatening dtype: float64 - name: self-harm dtype: float64 - name: self-harm/instructions dtype: float64 - name: self-harm/intent dtype: float64 - name: sexual dtype: float64 - name: sexual/minors dtype: float64 - name: violence dtype: float64 - name: violence/graphic dtype: float64 - name: flagged dtype: bool - name: toxic_chat_tag struct: - name: roberta-large struct: - name: flagged dtype: bool - name: probability dtype: float64 - name: t5-large struct: - name: flagged dtype: bool - name: score dtype: float64 splits: - name: train num_bytes: 81159839 num_examples: 33000 download_size: 41573740 dataset_size: 81159839 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for "lmsys_chatbot_arena_conversations" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息: 特征: - 名称: question_id 数据类型: 字符串 - 名称: model_a 数据类型: 字符串 - 名称: model_b 数据类型: 字符串 - 名称: winner 数据类型: 字符串 - 名称: judge 数据类型: 字符串 - 名称: conversation_a 列表: - 名称: content 数据类型: 字符串 - 名称: role 数据类型: 字符串 - 名称: conversation_b 列表: - 名称: content 数据类型: 字符串 - 名称: role 数据类型: 字符串 - 名称: turn 数据类型: int64 - 名称: anony 数据类型: bool - 名称: language 数据类型: 字符串 - 名称: tstamp 数据类型: float64 - 名称: openai_moderation 结构: - 名称: categories 结构: - 名称: harassment 数据类型: bool - 名称: harassment/threatening 数据类型: bool - 名称: hate 数据类型: bool - 名称: hate/threatening 数据类型: bool - 名称: self-harm 数据类型: bool - 名称: self-harm/instructions 数据类型: bool - 名称: self-harm/intent 数据类型: bool - 名称: sexual 数据类型: bool - 名称: sexual/minors 数据类型: bool - 名称: violence 数据类型: bool - 名称: violence/graphic 数据类型: bool - 名称: category_scores 结构: - 名称: harassment 数据类型: float64 - 名称: harassment/threatening 数据类型: float64 - 名称: hate 数据类型: float64 - 名称: hate/threatening 数据类型: float64 - 名称: self-harm 数据类型: float64 - 名称: self-harm/instructions 数据类型: float64 - 名称: self-harm/intent 数据类型: float64 - 名称: sexual 数据类型: float64 - 名称: sexual/minors 数据类型: float64 - 名称: violence 数据类型: float64 - 名称: violence/graphic 数据类型: float64 - 名称: flagged 数据类型: bool - 名称: toxic_chat_tag 结构: - 名称: roberta-large 结构: - 名称: flagged 数据类型: bool - 名称: probability 数据类型: float64 - 名称: t5-large 结构: - 名称: flagged 数据类型: bool - 名称: score 数据类型: float64 拆分: - 名称: train 字节数: 81159839 样本数: 33000 下载大小: 41573740 数据集大小: 81159839 配置: - 配置名称: default 数据文件: - 拆分: train 路径: data/train-* # 'lmsys_chatbot_arena_conversations'数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

dim

原始信息汇总

数据集概述

数据集信息

特征列表:
- question_id: 字符串类型
- model_a: 字符串类型
- model_b: 字符串类型
- winner: 字符串类型
- judge: 字符串类型
- conversation_a: 列表类型，包含 content（字符串类型）和 role（字符串类型）
- conversation_b: 列表类型，包含 content（字符串类型）和 role（字符串类型）
- turn: 64位整数类型
- anony: 布尔类型
- language: 字符串类型
- tstamp: 64位浮点数类型
- openai_moderation: 结构类型，包含 categories（结构类型，包含多个布尔类型字段）和 category_scores（结构类型，包含多个64位浮点数字段）以及 flagged（布尔类型）
- toxic_chat_tag: 结构类型，包含 roberta-large（结构类型，包含 flagged（布尔类型）和 probability（64位浮点数类型））和 t5-large（结构类型，包含 flagged（布尔类型）和 score（64位浮点数类型））

数据集分割

训练集:
- 字节数: 81,159,839
- 样本数: 33,000

数据集大小

下载大小: 41,573,740 字节
数据集大小: 81,159,839 字节

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能对话系统评估领域，lmsys_chatbot_arena_conversations数据集的构建采用了众包平台上的对抗性对话收集机制。该机制通过在线竞技场形式，邀请真实用户提交查询问题，并随机分配两个不同的对话模型生成回复，随后由用户担任裁判，匿名评选出更优的回复作为胜者。数据采集过程涵盖了多轮对话交互，并记录了完整的时间戳、语言类型及匿名化标识，同时引入了OpenAI内容审核与毒性检测模型对对话内容进行安全标注，确保了数据来源的多样性与质量控制的严谨性。

特点

该数据集的核心特征在于其结构化的多模型对话比较框架，每条数据均包含两个独立模型对同一查询的完整对话记录，并附有用户判定的胜负结果。数据字段设计精细，不仅涵盖对话内容与角色分配，还整合了丰富的元数据，如对话轮次、时间戳及多语言标识。尤为突出的是，数据集引入了双重安全过滤机制，通过OpenAI的内容分类评分与基于RoBERTa、T5等模型的毒性检测标签，为研究社区提供了兼具对话质量评估与安全分析价值的高维度语料。

使用方法

研究人员可利用该数据集开展对话模型的基准测试与对比分析，通过提取conversation_a与conversation_b字段进行响应质量评估，并结合winner字段构建偏好学习或强化学习训练目标。在安全性与伦理研究方面，openai_moderation与toxic_chat_tag字段支持对生成内容进行风险分类与毒性检测模型的验证。此外，数据集支持按语言、匿名性及时间维度进行切片分析，为跨语言对话系统演进与用户偏好动态研究提供实证基础。

背景与挑战

背景概述

在人工智能对话系统迅猛发展的浪潮中，如何客观、高效地评估不同模型的性能成为学术界与工业界共同关注的核心议题。LMSYS Chatbot Arena Conversations数据集应运而生，由加州大学伯克利分校等机构的研究团队于2023年创建，旨在通过大规模、众包式的人机对话对战平台，收集真实用户与多种大语言模型交互的对话数据及偏好评判。该数据集的核心研究问题聚焦于构建一个开放、动态的基准测试环境，以推动对话系统在实用性、安全性与人性化方面的进步，对自然语言处理领域的模型评估与对齐研究产生了深远影响。

当前挑战

该数据集致力于解决对话系统评估中主观性强、基准单一的长期挑战，其构建过程面临多重考验。在领域层面，如何设计公平且能捕捉模型细微差异的评估机制是一大难题，同时需确保评判能涵盖多样性、安全性及事实准确性等多维度标准。在数据构建过程中，挑战主要源于众包数据质量的参差不齐，包括用户提问的随意性、评判标准的主观偏差，以及对话中可能隐含的有害内容，这要求团队投入大量资源进行数据清洗、去偏与安全过滤，以保障数据集的可靠性与研究价值。

常用场景

经典使用场景

在对话系统评估领域，lmsys_chatbot_arena_conversations数据集通过收集用户与多种聊天机器人的真实交互记录，为模型性能的横向比较提供了宝贵资源。该数据集的核心应用场景在于支持基于人类偏好的自动化评估，研究者能够利用其中标注的胜负结果，构建高效的基准测试框架，以衡量不同模型在开放域对话中的综合表现。

实际应用

在实际部署层面，该数据集为企业和开发者优化聊天机器人产品提供了直接参考。工程团队可依据模型在竞技场中的表现数据，筛选出响应更自然、更符合用户期待的对话引擎，进而提升客服系统、虚拟助手等应用的用户满意度。同时，其内置的毒性检测标签也有助于在实际应用中规避风险，增强系统的安全性与合规性。

衍生相关工作

围绕该数据集，学术界已衍生出一系列经典研究工作，例如基于Elo评分系统构建模型排行榜，以及开发更精细的对话质量评估指标。这些工作不仅深化了对模型能力边界的理解，还催生了新的评估方法论，如利用对抗性测试揭示模型弱点，从而持续推动对话人工智能向更稳健、更智能的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集