allenai/WildChat

Hugging Face2024-07-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/WildChat

下载链接

链接失效反馈

资源简介：

WildChat是一个包含65万条人类用户与ChatGPT之间对话的数据集。该数据集通过向在线用户免费提供OpenAI的GPT-3.5和GPT-4访问权限收集而成。数据集涵盖了多种用户与聊天机器人的交互场景，如模糊的用户请求、代码转换、话题转换、政治讨论等。WildChat既可作为指令微调的数据集，也可作为研究用户行为的宝贵资源。需要注意的是，该数据集包含有毒的用户输入和ChatGPT的响应，并提供了一个无毒的子集。数据集支持多语言，包含66种语言，并且已经过脱敏处理。

WildChat is a collection of 650K conversations between human users and ChatGPT, covering a wide range of interactions including ambiguous user requests, code-switching, topic-switching, political discussions, etc. Each conversation has a unique ID, recording the model used, timestamp, conversation content, language, whether it contains toxic content, and whether personal information has been anonymized. Additionally, the dataset includes moderation results from OpenAI and Detoxify.

提供机构：

allenai

原始信息汇总

WildChat 数据集概述

数据集描述

数据集名称: WildChat
数据集大小: 650K 对话
语言: 多语言（66种语言）
数据来源: 用户与ChatGPT的交互
数据收集方式: 通过提供用户免费访问OpenAI的GPT-3.5和GPT-4
数据集用途: 指令微调、用户行为研究
数据集特点: 包含模糊请求、代码切换、话题切换、政治讨论等多样化的用户-聊天机器人交互
数据集版本: 包含有毒和非有毒子集

数据字段

conversation_id: 每个对话的唯一ID（字符串）
model: 使用的OpenAI模型（字符串）
timestamp: 对话中最后一轮的时间戳（UTC时间）
conversation: 用户/助手发言列表，包含发言内容、语言、是否有毒、是否匿名化等信息
turn: 对话轮数（整数）
language: 对话的主要语言（字符串）
openai_moderation: OpenAI内容审核结果列表
detoxify_moderation: Detoxify内容审核结果列表
toxic: 对话是否包含任何被认为有毒的发言（布尔值）
redacted: 对话是否包含任何被匿名化的发言（布尔值）

数据集分割

train: 包含622,024个样本，总大小为3.72GB

数据集版本更新

2024-06-26: 许可证更新为ODC-BY

引用信息

@inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }

AI搜集汇总

数据集介绍

构建方式

WildChat数据集通过提供在线用户免费访问OpenAI的GPT-3.5和GPT-4模型，收集了65万次人类用户与ChatGPT的对话。这些对话涵盖了广泛的交互类型，包括模糊的用户请求、代码切换、话题切换、政治讨论等，填补了现有指令微调数据集的空白。数据集的构建过程中，使用了OpenAI的Moderation API和Detoxify工具对对话进行筛选，确保移除了所有被标记为有毒的对话。此外，数据集还通过Microsoft Presidio和手工编写的规则对个人信息进行了去识别化处理，以保护用户隐私。

特点

WildChat数据集的显著特点在于其多样性和多语言性。该数据集包含了66种语言的对话，涵盖了多种复杂的用户行为和交互模式。此外，数据集还记录了每次对话的详细信息，包括对话ID、使用的模型、时间戳、对话内容、语言检测、是否含有有毒内容以及是否进行了去识别化处理。这些详细的数据字段使得WildChat不仅适用于指令微调，还为研究用户行为提供了宝贵的资源。

使用方法

WildChat数据集可用于多种自然语言处理任务，如文本生成、问答系统和文本到文本生成。用户可以通过指定对话ID、模型类型或时间戳来检索特定对话，进行深入分析。此外，数据集中的多语言特性和详细的对话信息使其非常适合用于跨语言研究、用户行为分析以及模型性能评估。为了确保数据的合法使用，用户在使用该数据集时应遵守ODC-BY许可协议，并在相关研究中引用原始文献。

背景与挑战

背景概述

WildChat数据集是由AllenAI团队创建，汇集了65万次人类用户与ChatGPT之间的对话，涵盖了多种语言和复杂的交互场景。该数据集的构建始于对现有指令微调数据集的补充需求，旨在捕捉更广泛的对话模式，包括模糊请求、代码切换、话题切换及政治讨论等。主要研究人员包括Wenting Zhao、Xiang Ren等，其研究成果已在2024年的国际学习表征会议上发表。WildChat不仅为指令微调提供了丰富的资源，还为研究用户行为和对话系统提供了宝贵的数据支持。

当前挑战

WildChat数据集在构建过程中面临多项挑战。首先，如何有效过滤和处理包含个人身份信息（PII）和敏感内容的对话是一个重要问题，这需要借助Microsoft Presidio和手工规则进行去识别化处理。其次，数据集中存在用户提交空输入的情况，导致助手生成无提示的响应，这一问题在数据收集阶段未能有效限制。此外，多语言对话的检测和处理，以及确保对话内容的质量和多样性，也是构建过程中需要克服的难题。

常用场景

经典使用场景

WildChat数据集的经典使用场景主要集中在多语言对话生成和指令微调领域。该数据集包含了65万条人类用户与ChatGPT之间的对话，涵盖了多种复杂的交互模式，如模糊请求、代码切换、话题切换以及政治讨论等。这些对话不仅为模型提供了丰富的训练样本，还为研究用户行为和对话系统的表现提供了宝贵的资源。

衍生相关工作

基于WildChat数据集，已衍生出多项相关研究工作。例如，有研究利用该数据集进行多语言对话模型的微调，以提升模型在不同语言环境下的表现。此外，还有研究探讨了如何利用数据集中的复杂交互模式来增强对话系统的鲁棒性和适应性。这些工作不仅推动了对话系统技术的发展，也为多语言对话生成的研究提供了新的视角和方法。

数据集最近研究