five

allenai/WildChat|对话系统数据集|自然语言处理数据集

收藏
hugging_face2024-07-19 更新2024-03-04 收录
对话系统
自然语言处理
下载链接:
https://hf-mirror.com/datasets/allenai/WildChat
下载链接
链接失效反馈
资源简介:
WildChat是一个包含65万条人类用户与ChatGPT之间对话的数据集。该数据集通过向在线用户免费提供OpenAI的GPT-3.5和GPT-4访问权限收集而成。数据集涵盖了多种用户与聊天机器人的交互场景,如模糊的用户请求、代码转换、话题转换、政治讨论等。WildChat既可作为指令微调的数据集,也可作为研究用户行为的宝贵资源。需要注意的是,该数据集包含有毒的用户输入和ChatGPT的响应,并提供了一个无毒的子集。数据集支持多语言,包含66种语言,并且已经过脱敏处理。

WildChat is a collection of 650K conversations between human users and ChatGPT, covering a wide range of interactions including ambiguous user requests, code-switching, topic-switching, political discussions, etc. Each conversation has a unique ID, recording the model used, timestamp, conversation content, language, whether it contains toxic content, and whether personal information has been anonymized. Additionally, the dataset includes moderation results from OpenAI and Detoxify.
提供机构:
allenai
原始信息汇总

WildChat 数据集概述

数据集描述

  • 数据集名称: WildChat
  • 数据集大小: 650K 对话
  • 语言: 多语言(66种语言)
  • 数据来源: 用户与ChatGPT的交互
  • 数据收集方式: 通过提供用户免费访问OpenAI的GPT-3.5和GPT-4
  • 数据集用途: 指令微调、用户行为研究
  • 数据集特点: 包含模糊请求、代码切换、话题切换、政治讨论等多样化的用户-聊天机器人交互
  • 数据集版本: 包含有毒和非有毒子集

数据字段

  • conversation_id: 每个对话的唯一ID(字符串)
  • model: 使用的OpenAI模型(字符串)
  • timestamp: 对话中最后一轮的时间戳(UTC时间)
  • conversation: 用户/助手发言列表,包含发言内容、语言、是否有毒、是否匿名化等信息
  • turn: 对话轮数(整数)
  • language: 对话的主要语言(字符串)
  • openai_moderation: OpenAI内容审核结果列表
  • detoxify_moderation: Detoxify内容审核结果列表
  • toxic: 对话是否包含任何被认为有毒的发言(布尔值)
  • redacted: 对话是否包含任何被匿名化的发言(布尔值)

数据集分割

  • train: 包含622,024个样本,总大小为3.72GB

数据集版本更新

  • 2024-06-26: 许可证更新为ODC-BY

引用信息

@inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
WildChat数据集通过提供在线用户免费访问OpenAI的GPT-3.5和GPT-4模型,收集了65万次人类用户与ChatGPT的对话。这些对话涵盖了广泛的交互类型,包括模糊的用户请求、代码切换、话题切换、政治讨论等,填补了现有指令微调数据集的空白。数据集的构建过程中,使用了OpenAI的Moderation API和Detoxify工具对对话进行筛选,确保移除了所有被标记为有毒的对话。此外,数据集还通过Microsoft Presidio和手工编写的规则对个人信息进行了去识别化处理,以保护用户隐私。
特点
WildChat数据集的显著特点在于其多样性和多语言性。该数据集包含了66种语言的对话,涵盖了多种复杂的用户行为和交互模式。此外,数据集还记录了每次对话的详细信息,包括对话ID、使用的模型、时间戳、对话内容、语言检测、是否含有有毒内容以及是否进行了去识别化处理。这些详细的数据字段使得WildChat不仅适用于指令微调,还为研究用户行为提供了宝贵的资源。
使用方法
WildChat数据集可用于多种自然语言处理任务,如文本生成、问答系统和文本到文本生成。用户可以通过指定对话ID、模型类型或时间戳来检索特定对话,进行深入分析。此外,数据集中的多语言特性和详细的对话信息使其非常适合用于跨语言研究、用户行为分析以及模型性能评估。为了确保数据的合法使用,用户在使用该数据集时应遵守ODC-BY许可协议,并在相关研究中引用原始文献。
背景与挑战
背景概述
WildChat数据集是由AllenAI团队创建,汇集了65万次人类用户与ChatGPT之间的对话,涵盖了多种语言和复杂的交互场景。该数据集的构建始于对现有指令微调数据集的补充需求,旨在捕捉更广泛的对话模式,包括模糊请求、代码切换、话题切换及政治讨论等。主要研究人员包括Wenting Zhao、Xiang Ren等,其研究成果已在2024年的国际学习表征会议上发表。WildChat不仅为指令微调提供了丰富的资源,还为研究用户行为和对话系统提供了宝贵的数据支持。
当前挑战
WildChat数据集在构建过程中面临多项挑战。首先,如何有效过滤和处理包含个人身份信息(PII)和敏感内容的对话是一个重要问题,这需要借助Microsoft Presidio和手工规则进行去识别化处理。其次,数据集中存在用户提交空输入的情况,导致助手生成无提示的响应,这一问题在数据收集阶段未能有效限制。此外,多语言对话的检测和处理,以及确保对话内容的质量和多样性,也是构建过程中需要克服的难题。
常用场景
经典使用场景
WildChat数据集的经典使用场景主要集中在多语言对话生成和指令微调领域。该数据集包含了65万条人类用户与ChatGPT之间的对话,涵盖了多种复杂的交互模式,如模糊请求、代码切换、话题切换以及政治讨论等。这些对话不仅为模型提供了丰富的训练样本,还为研究用户行为和对话系统的表现提供了宝贵的资源。
衍生相关工作
基于WildChat数据集,已衍生出多项相关研究工作。例如,有研究利用该数据集进行多语言对话模型的微调,以提升模型在不同语言环境下的表现。此外,还有研究探讨了如何利用数据集中的复杂交互模式来增强对话系统的鲁棒性和适应性。这些工作不仅推动了对话系统技术的发展,也为多语言对话生成的研究提供了新的视角和方法。
数据集最近研究
最新研究方向
在自然语言处理领域,WildChat数据集因其大规模的多语言对话数据而备受关注。该数据集不仅涵盖了广泛的用户与ChatGPT的交互,还包含了多种复杂的对话场景,如模糊请求、代码切换、话题切换及政治讨论等。这些特性使得WildChat成为指令微调研究和用户行为分析的宝贵资源。近期,研究者们正利用该数据集探索如何提升对话系统的鲁棒性和适应性,特别是在处理多语言和多主题对话时的表现。此外,WildChat的更新版本还引入了人口统计信息,这为进一步的社会语言学分析提供了可能,尤其是在理解不同群体的对话模式和偏好方面。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

FRED (Federal Reserve Economic Data)

FRED(Federal Reserve Economic Data)是一个由美国联邦储备银行圣路易斯分行维护的经济数据库,提供超过80万种经济指标数据,包括国内生产总值(GDP)、失业率、通货膨胀率、利率等。数据涵盖了美国和国际的经济、金融和社会指标,时间跨度从1776年至今。

fred.stlouisfed.org 收录

RADIOML 2016.10A

一个合成数据集,使用GNU Radio生成,包含11种调制方式(8种数字和3种模拟),信号噪声比各异。该数据集首次在第六届年度GNU Radio会议上发布。

github 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录