five

WildChat-4.8M|聊天机器人数据集|自然语言处理数据集

收藏
huggingface2025-08-11 更新2025-08-12 收录
聊天机器人
自然语言处理
下载链接:
https://huggingface.co/datasets/allenai/WildChat-4.8M
下载链接
链接失效反馈
资源简介:
WildChat-4.8M 是一个包含 3,199,860 次人类用户与 ChatGPT 之间对话的集合。这个版本只包含被 OpenAI 内容审核 API 或 Detoxify 标记为非有毒的用户输入和 ChatGPT 响应。它来自 [WildChat-4.8M-Full](https://huggingface.co/datasets/allenai/WildChat-4.8M-Full) 数据集,该数据集在删除了 1,543,476 个有毒对话后,从原始的 4,804,190 次对话中得到了 4,743,336 次对话。数据集包括州、国家、哈希 IP 地址、请求头和完整的对话记录。数据集包含广泛的用户聊天机器人交互:模棱两可的请求、代码切换、话题转换、政治辩论等等。它还包含来自推理模型 `o1-preview` 和 `o1-mini` 的 111,836 个非有毒对话。这个版本只包含被 OpenAI 内容审核 API 或 Detoxify 标记为非有毒的对话。对于大多数不需要有毒数据的使用案例,推荐使用这个数据集。如果您需要包含有毒和非有毒对话的版本,请参考受限制的 [WildChat-4.8M-Full](https://huggingface.co/datasets/allenai/WildChat-4.8M-Full)。
提供机构:
Allen Institute for AI
创建时间:
2025-08-09
原始信息汇总

WildChat-4.8M 数据集概述

数据集基本信息

  • 许可证: odc-by
  • 数据规模: 1M<n<10M
  • 任务类别: 文本生成、问答
  • 数据集名称: WildChat-4.8M
  • 下载大小: 15282293424
  • 数据集大小: 42645714270.23995
  • 训练集样本数: 3199860

数据集描述

  • 来源: 人类用户与ChatGPT的对话集合
  • 内容: 仅包含非毒性用户输入和ChatGPT响应
  • 原始数据集: WildChat-4.8M-Full
  • 过滤内容: 移除了1543476个毒性对话
  • 特点: 包含状态、国家、哈希IP地址、请求头和完整对话记录

数据集统计

模型家族 数量
gpt-4o 1,539,780
gpt-3.5-turbo 688,900
gpt-4.1-mini 634,037
gpt-4 202,915
o1-mini 58,529
o1-preview 53,307
gpt-4-turbo 22,392
总计 3,199,860

数据字段

  • conversation_hash: 对话内容的哈希值
  • model: 使用的OpenAI模型
  • timestamp: 对话最后轮次的时间戳
  • conversation: 对话轮次列表
    • content: 对话内容
    • created: 创建时间
    • header: 请求头信息
    • hashed_ip: 哈希IP地址
    • country: 国家
    • toxic: 是否毒性内容
    • redacted: 是否匿名化
    • state: 状态
    • language: 语言
    • openai_id: OpenAI ID
    • role: 角色
    • temperature: 温度参数
    • timestamp: 时间戳
    • token_counter: 令牌计数
    • top_p: top_p参数
    • turn_identifier: 轮次标识符
    • system_fingerprint: 系统指纹
    • usage: 使用情况
  • turn: 对话轮次数
  • language: 对话语言
  • openai_moderation: OpenAI审核结果
  • detoxify_moderation: Detoxify审核结果
  • toxic: 是否包含毒性内容
  • redacted: 是否匿名化
  • state: 状态
  • country: 国家
  • hashed_ip: 哈希IP地址
  • header: 请求头信息

语言

  • 覆盖多种语言(早期版本检测到68种)

个人和敏感信息

  • 使用Microsoft Presidio、自定义正则规则和手动调整进行去标识化
  • 使用TruffleHog扫描移除已验证的秘密

相关资源

  • 交互式搜索工具: https://wildvisualizer.com
  • WildChat论文: https://arxiv.org/abs/2405.01470
  • WildVis论文: https://arxiv.org/abs/2409.03753
  • 联系人: Yuntian Deng

引用信息

bibtex @inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }

bibtex @inproceedings{deng2024wildvis, title = "{W}ild{V}is: Open Source Visualizer for Million-Scale Chat Logs in the Wild", author = "Deng, Yuntian and Zhao, Wenting and Hessel, Jack and Ren, Xiang and Cardie, Claire and Choi, Yejin", booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations", year = "2024", url = "https://aclanthology.org/2024.emnlp-demo.50/" }

AI搜集汇总
数据集介绍
main_image_url
构建方式
WildChat-4.8M数据集通过收集真实用户与ChatGPT的互动对话构建而成,原始数据经过严格筛选,移除了包含有害内容的对话。数据集构建过程中采用了OpenAI Moderations API和Detoxify工具进行毒性检测,确保仅保留非毒性对话。此外,数据集还应用了Microsoft Presidio和自定义正则规则进行去标识化处理,并通过TruffleHog扫描移除已验证的敏感信息。数据覆盖了多种语言和多样的对话场景,包括代码切换、话题转换和政治辩论等。
特点
WildChat-4.8M数据集包含3,199,860个非毒性对话,涵盖了多种OpenAI模型生成的交互内容。数据集不仅记录了对话内容,还包含了丰富的元数据,如时间戳、地理位置信息、请求头、语言检测结果等。每个对话均经过毒性检测和去标识化处理,确保了数据的质量和隐私安全。此外,数据集还包含111,836个来自推理模型的对话,为研究提供了多样化的数据支持。
使用方法
WildChat-4.8M数据集适用于文本生成、问答系统等自然语言处理任务的研究与开发。用户可通过HuggingFace平台直接下载数据集,或使用提供的交互式搜索工具进行数据探索。数据集中的元数据可用于分析用户行为、模型表现及对话质量。对于需要毒性数据的研究,可申请访问完整的WildChat-4.8M-Full数据集。使用数据集时,建议引用相关论文以支持学术研究。
背景与挑战
背景概述
WildChat-4.8M数据集由艾伦人工智能研究所(Allen Institute for AI)的研究团队于2024年构建,旨在捕捉真实场景下人类与ChatGPT的交互模式。该数据集收录了319万条经过严格过滤的非毒性对话,覆盖68种语言,涉及代码生成、多轮问答、跨领域讨论等多种交互类型。作为首个百万级开源对话日志,其核心价值在于为对话系统研究提供了真实用户行为的观察窗口,尤其对提升大语言模型在开放域对话中的鲁棒性具有重要参考意义。相关研究成果已发表于ICLR 2024等顶级会议,推动了对话系统可解释性和安全对齐领域的发展。
当前挑战
构建该数据集面临双重挑战:在领域问题层面,需解决开放域对话中存在的语义模糊性、话题跳跃性及文化敏感性等问题,这对对话系统的上下文理解能力提出极高要求;在技术实现层面,研究人员需处理大规模数据去标识化、多语言毒性检测(采用OpenAI Moderation和Detoxify双重过滤)、跨时区时间戳标准化等难题。特别值得注意的是,如何平衡数据开放性与隐私保护,以及准确识别111,836条推理模型对话的语义特征,成为数据集构建过程中的关键突破点。
常用场景
经典使用场景
在自然语言处理领域,WildChat-4.8M数据集作为大规模人机对话语料库,为研究真实场景下的对话系统行为提供了丰富素材。该数据集特别适用于探究多轮对话中的话题迁移、代码切换等复杂交互模式,其包含的31.9万条经过毒性过滤的对话记录,为构建安全可靠的对话系统奠定了数据基础。
实际应用
在实际应用层面,WildChat-4.8M被广泛用于智能客服系统的训练优化,特别是处理开放式用户查询的场景。教育科技领域利用其多语言对话数据开发跨文化学习助手,而内容审核行业则借助其中的毒性标注数据提升有害内容识别模型的准确率。
衍生相关工作
基于该数据集衍生的经典工作包括WildBench评估基准,专门用于测试大语言模型处理真实用户查询的能力。此外,Magpie研究通过分析数据集中的空输入对话现象,开创了从对齐LLM中合成指令数据的新方法,推动了自监督学习在对话生成领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

钻孔成像测井解译数据(2021-2022年)

利用测井设备实时获取的雄安新区D19,D21,D22,冀中坳陷地区JZ01,JZ04钻孔的测井数据,并由Techlog软件 WBI井眼成像解释模块解译的裂缝原始数据

国家地球系统科学数据中心 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

广东省标准地图

该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。

开放广东 收录