WildChat-4.8M

Name: WildChat-4.8M
Creator: Allen Institute for AI
Published: 2025-08-11 23:12:58
License: 暂无描述

Hugging Face2025-08-11 更新2025-08-12 收录

下载链接：

https://huggingface.co/datasets/allenai/WildChat-4.8M

下载链接

链接失效反馈

官方服务：

资源简介：

WildChat-4.8M 是一个包含 3,199,860 次人类用户与 ChatGPT 之间对话的集合。这个版本只包含被 OpenAI 内容审核 API 或 Detoxify 标记为非有毒的用户输入和 ChatGPT 响应。它来自 [WildChat-4.8M-Full](https://huggingface.co/datasets/allenai/WildChat-4.8M-Full) 数据集，该数据集在删除了 1,543,476 个有毒对话后，从原始的 4,804,190 次对话中得到了 4,743,336 次对话。数据集包括州、国家、哈希 IP 地址、请求头和完整的对话记录。数据集包含广泛的用户聊天机器人交互：模棱两可的请求、代码切换、话题转换、政治辩论等等。它还包含来自推理模型 `o1-preview` 和 `o1-mini` 的 111,836 个非有毒对话。这个版本只包含被 OpenAI 内容审核 API 或 Detoxify 标记为非有毒的对话。对于大多数不需要有毒数据的使用案例，推荐使用这个数据集。如果您需要包含有毒和非有毒对话的版本，请参考受限制的 [WildChat-4.8M-Full](https://huggingface.co/datasets/allenai/WildChat-4.8M-Full)。

WildChat-4.8M is a collection of 3,199,860 conversations between human users and ChatGPT. This version only includes non-toxic user inputs and ChatGPT responses flagged as safe by either the OpenAI Content Moderation API or Detoxify. It is derived from the [WildChat-4.8M-Full](https://huggingface.co/datasets/allenai/WildChat-4.8M-Full) dataset, where 1,543,476 toxic conversations were removed from the original 4,804,190 total dialogues to yield 4,743,336 conversations. The dataset includes state, country, hashed IP addresses, request headers, and full conversation logs. It covers a diverse range of user-chatbot interactions, including ambiguous requests, code-switching, topic shifts, political debates, and more. It also contains 111,836 non-toxic conversations generated by the reasoning models `o1-preview` and `o1-mini`. This version only includes dialogues marked as non-toxic by the OpenAI Content Moderation API or Detoxify. This dataset is recommended for most use cases that do not require toxic data. If you need a version that includes both toxic and non-toxic conversations, please refer to the restricted [WildChat-4.8M-Full](https://huggingface.co/datasets/allenai/WildChat-4.8M-Full).

提供机构：

Allen Institute for AI

创建时间：

2025-08-09

原始信息汇总

WildChat-4.8M 数据集概述

数据集基本信息

许可证: odc-by
数据规模: 1M<n<10M
任务类别: 文本生成、问答
数据集名称: WildChat-4.8M
下载大小: 15282293424
数据集大小: 42645714270.23995
训练集样本数: 3199860

数据集描述

来源: 人类用户与ChatGPT的对话集合
内容: 仅包含非毒性用户输入和ChatGPT响应
原始数据集: WildChat-4.8M-Full
过滤内容: 移除了1543476个毒性对话
特点: 包含状态、国家、哈希IP地址、请求头和完整对话记录

数据集统计

模型家族	数量
gpt-4o	1,539,780
gpt-3.5-turbo	688,900
gpt-4.1-mini	634,037
gpt-4	202,915
o1-mini	58,529
o1-preview	53,307
gpt-4-turbo	22,392
总计	3,199,860

数据字段

conversation_hash: 对话内容的哈希值
model: 使用的OpenAI模型
timestamp: 对话最后轮次的时间戳
conversation: 对话轮次列表
- content: 对话内容
- created: 创建时间
- header: 请求头信息
- hashed_ip: 哈希IP地址
- country: 国家
- toxic: 是否毒性内容
- redacted: 是否匿名化
- state: 状态
- language: 语言
- openai_id: OpenAI ID
- role: 角色
- temperature: 温度参数
- timestamp: 时间戳
- token_counter: 令牌计数
- top_p: top_p参数
- turn_identifier: 轮次标识符
- system_fingerprint: 系统指纹
- usage: 使用情况
turn: 对话轮次数
language: 对话语言
openai_moderation: OpenAI审核结果
detoxify_moderation: Detoxify审核结果
toxic: 是否包含毒性内容
redacted: 是否匿名化
state: 状态
country: 国家
hashed_ip: 哈希IP地址
header: 请求头信息

语言

覆盖多种语言（早期版本检测到68种）

个人和敏感信息

使用Microsoft Presidio、自定义正则规则和手动调整进行去标识化
使用TruffleHog扫描移除已验证的秘密

引用信息

bibtex @inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }

bibtex @inproceedings{deng2024wildvis, title = "{W}ild{V}is: Open Source Visualizer for Million-Scale Chat Logs in the Wild", author = "Deng, Yuntian and Zhao, Wenting and Hessel, Jack and Ren, Xiang and Cardie, Claire and Choi, Yejin", booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations", year = "2024", url = "https://aclanthology.org/2024.emnlp-demo.50/" }

搜集汇总

数据集介绍

构建方式

WildChat-4.8M数据集通过收集真实用户与ChatGPT的互动对话构建而成，原始数据经过严格筛选，移除了包含有害内容的对话。数据集构建过程中采用了OpenAI Moderations API和Detoxify工具进行毒性检测，确保仅保留非毒性对话。此外，数据集还应用了Microsoft Presidio和自定义正则规则进行去标识化处理，并通过TruffleHog扫描移除已验证的敏感信息。数据覆盖了多种语言和多样的对话场景，包括代码切换、话题转换和政治辩论等。

特点

WildChat-4.8M数据集包含3,199,860个非毒性对话，涵盖了多种OpenAI模型生成的交互内容。数据集不仅记录了对话内容，还包含了丰富的元数据，如时间戳、地理位置信息、请求头、语言检测结果等。每个对话均经过毒性检测和去标识化处理，确保了数据的质量和隐私安全。此外，数据集还包含111,836个来自推理模型的对话，为研究提供了多样化的数据支持。

使用方法

WildChat-4.8M数据集适用于文本生成、问答系统等自然语言处理任务的研究与开发。用户可通过HuggingFace平台直接下载数据集，或使用提供的交互式搜索工具进行数据探索。数据集中的元数据可用于分析用户行为、模型表现及对话质量。对于需要毒性数据的研究，可申请访问完整的WildChat-4.8M-Full数据集。使用数据集时，建议引用相关论文以支持学术研究。

背景与挑战

背景概述

WildChat-4.8M数据集由艾伦人工智能研究所（Allen Institute for AI）的研究团队于2024年构建，旨在捕捉真实场景下人类与ChatGPT的交互模式。该数据集收录了319万条经过严格过滤的非毒性对话，覆盖68种语言，涉及代码生成、多轮问答、跨领域讨论等多种交互类型。作为首个百万级开源对话日志，其核心价值在于为对话系统研究提供了真实用户行为的观察窗口，尤其对提升大语言模型在开放域对话中的鲁棒性具有重要参考意义。相关研究成果已发表于ICLR 2024等顶级会议，推动了对话系统可解释性和安全对齐领域的发展。

当前挑战

构建该数据集面临双重挑战：在领域问题层面，需解决开放域对话中存在的语义模糊性、话题跳跃性及文化敏感性等问题，这对对话系统的上下文理解能力提出极高要求；在技术实现层面，研究人员需处理大规模数据去标识化、多语言毒性检测（采用OpenAI Moderation和Detoxify双重过滤）、跨时区时间戳标准化等难题。特别值得注意的是，如何平衡数据开放性与隐私保护，以及准确识别111,836条推理模型对话的语义特征，成为数据集构建过程中的关键突破点。

常用场景

经典使用场景

在自然语言处理领域，WildChat-4.8M数据集作为大规模人机对话语料库，为研究真实场景下的对话系统行为提供了丰富素材。该数据集特别适用于探究多轮对话中的话题迁移、代码切换等复杂交互模式，其包含的31.9万条经过毒性过滤的对话记录，为构建安全可靠的对话系统奠定了数据基础。

实际应用

在实际应用层面，WildChat-4.8M被广泛用于智能客服系统的训练优化，特别是处理开放式用户查询的场景。教育科技领域利用其多语言对话数据开发跨文化学习助手，而内容审核行业则借助其中的毒性标注数据提升有害内容识别模型的准确率。

衍生相关工作

基于该数据集衍生的经典工作包括WildBench评估基准，专门用于测试大语言模型处理真实用户查询的能力。此外，Magpie研究通过分析数据集中的空输入对话现象，开创了从对齐LLM中合成指令数据的新方法，推动了自监督学习在对话生成领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集