five

allenai/WildChat|对话系统数据集|自然语言处理数据集

收藏
hugging_face2024-07-19 更新2024-03-04 收录
对话系统
自然语言处理
下载链接:
https://hf-mirror.com/datasets/allenai/WildChat
下载链接
链接失效反馈
资源简介:
WildChat是一个包含65万条人类用户与ChatGPT之间对话的数据集。该数据集通过向在线用户免费提供OpenAI的GPT-3.5和GPT-4访问权限收集而成。数据集涵盖了多种用户与聊天机器人的交互场景,如模糊的用户请求、代码转换、话题转换、政治讨论等。WildChat既可作为指令微调的数据集,也可作为研究用户行为的宝贵资源。需要注意的是,该数据集包含有毒的用户输入和ChatGPT的响应,并提供了一个无毒的子集。数据集支持多语言,包含66种语言,并且已经过脱敏处理。

WildChat is a collection of 650K conversations between human users and ChatGPT, covering a wide range of interactions including ambiguous user requests, code-switching, topic-switching, political discussions, etc. Each conversation has a unique ID, recording the model used, timestamp, conversation content, language, whether it contains toxic content, and whether personal information has been anonymized. Additionally, the dataset includes moderation results from OpenAI and Detoxify.
提供机构:
allenai
原始信息汇总

WildChat 数据集概述

数据集描述

  • 数据集名称: WildChat
  • 数据集大小: 650K 对话
  • 语言: 多语言(66种语言)
  • 数据来源: 用户与ChatGPT的交互
  • 数据收集方式: 通过提供用户免费访问OpenAI的GPT-3.5和GPT-4
  • 数据集用途: 指令微调、用户行为研究
  • 数据集特点: 包含模糊请求、代码切换、话题切换、政治讨论等多样化的用户-聊天机器人交互
  • 数据集版本: 包含有毒和非有毒子集

数据字段

  • conversation_id: 每个对话的唯一ID(字符串)
  • model: 使用的OpenAI模型(字符串)
  • timestamp: 对话中最后一轮的时间戳(UTC时间)
  • conversation: 用户/助手发言列表,包含发言内容、语言、是否有毒、是否匿名化等信息
  • turn: 对话轮数(整数)
  • language: 对话的主要语言(字符串)
  • openai_moderation: OpenAI内容审核结果列表
  • detoxify_moderation: Detoxify内容审核结果列表
  • toxic: 对话是否包含任何被认为有毒的发言(布尔值)
  • redacted: 对话是否包含任何被匿名化的发言(布尔值)

数据集分割

  • train: 包含622,024个样本,总大小为3.72GB

数据集版本更新

  • 2024-06-26: 许可证更新为ODC-BY

引用信息

@inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
WildChat数据集通过提供在线用户免费访问OpenAI的GPT-3.5和GPT-4模型,收集了65万次人类用户与ChatGPT的对话。这些对话涵盖了广泛的交互类型,包括模糊的用户请求、代码切换、话题切换、政治讨论等,填补了现有指令微调数据集的空白。数据集的构建过程中,使用了OpenAI的Moderation API和Detoxify工具对对话进行筛选,确保移除了所有被标记为有毒的对话。此外,数据集还通过Microsoft Presidio和手工编写的规则对个人信息进行了去识别化处理,以保护用户隐私。
特点
WildChat数据集的显著特点在于其多样性和多语言性。该数据集包含了66种语言的对话,涵盖了多种复杂的用户行为和交互模式。此外,数据集还记录了每次对话的详细信息,包括对话ID、使用的模型、时间戳、对话内容、语言检测、是否含有有毒内容以及是否进行了去识别化处理。这些详细的数据字段使得WildChat不仅适用于指令微调,还为研究用户行为提供了宝贵的资源。
使用方法
WildChat数据集可用于多种自然语言处理任务,如文本生成、问答系统和文本到文本生成。用户可以通过指定对话ID、模型类型或时间戳来检索特定对话,进行深入分析。此外,数据集中的多语言特性和详细的对话信息使其非常适合用于跨语言研究、用户行为分析以及模型性能评估。为了确保数据的合法使用,用户在使用该数据集时应遵守ODC-BY许可协议,并在相关研究中引用原始文献。
背景与挑战
背景概述
WildChat数据集是由AllenAI团队创建,汇集了65万次人类用户与ChatGPT之间的对话,涵盖了多种语言和复杂的交互场景。该数据集的构建始于对现有指令微调数据集的补充需求,旨在捕捉更广泛的对话模式,包括模糊请求、代码切换、话题切换及政治讨论等。主要研究人员包括Wenting Zhao、Xiang Ren等,其研究成果已在2024年的国际学习表征会议上发表。WildChat不仅为指令微调提供了丰富的资源,还为研究用户行为和对话系统提供了宝贵的数据支持。
当前挑战
WildChat数据集在构建过程中面临多项挑战。首先,如何有效过滤和处理包含个人身份信息(PII)和敏感内容的对话是一个重要问题,这需要借助Microsoft Presidio和手工规则进行去识别化处理。其次,数据集中存在用户提交空输入的情况,导致助手生成无提示的响应,这一问题在数据收集阶段未能有效限制。此外,多语言对话的检测和处理,以及确保对话内容的质量和多样性,也是构建过程中需要克服的难题。
常用场景
经典使用场景
WildChat数据集的经典使用场景主要集中在多语言对话生成和指令微调领域。该数据集包含了65万条人类用户与ChatGPT之间的对话,涵盖了多种复杂的交互模式,如模糊请求、代码切换、话题切换以及政治讨论等。这些对话不仅为模型提供了丰富的训练样本,还为研究用户行为和对话系统的表现提供了宝贵的资源。
衍生相关工作
基于WildChat数据集,已衍生出多项相关研究工作。例如,有研究利用该数据集进行多语言对话模型的微调,以提升模型在不同语言环境下的表现。此外,还有研究探讨了如何利用数据集中的复杂交互模式来增强对话系统的鲁棒性和适应性。这些工作不仅推动了对话系统技术的发展,也为多语言对话生成的研究提供了新的视角和方法。
数据集最近研究
最新研究方向
在自然语言处理领域,WildChat数据集因其大规模的多语言对话数据而备受关注。该数据集不仅涵盖了广泛的用户与ChatGPT的交互,还包含了多种复杂的对话场景,如模糊请求、代码切换、话题切换及政治讨论等。这些特性使得WildChat成为指令微调研究和用户行为分析的宝贵资源。近期,研究者们正利用该数据集探索如何提升对话系统的鲁棒性和适应性,特别是在处理多语言和多主题对话时的表现。此外,WildChat的更新版本还引入了人口统计信息,这为进一步的社会语言学分析提供了可能,尤其是在理解不同群体的对话模式和偏好方面。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

围岩和掘进工况识别建模数据集

围岩和掘进工况识别建模数据集以操作参数掘进优化决策建模数据集为基础,结合地质勘探信息和围岩台账,基于关键特征进行数据转换融合,选取能反映开挖围岩困难,可作为TBM的开挖负荷的刀盘扭矩和总推进力;选取能表明不同围岩下TBM开挖效率的掘进速度和刀盘转速;以桩号为基准确定各掘进循环的围岩岩性,构成数据集特征空间。

国家基础学科公共科学数据中心 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

TUT dataset

TUT数据集用于结构裂缝分割模型CrackSCF的训练和测试。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录