WildChat-4.8M

Hugging Face2025-11-16 更新2025-11-17 收录

下载链接：

https://huggingface.co/datasets/HayatoHongo/WildChat-4.8M

下载链接

链接失效反馈

官方服务：

资源简介：

WildChat-4.8M是一个包含约319万次人类用户与ChatGPT之间对话的数据集。这个版本仅包含由OpenAI Moderations API或Detoxify标记为非毒性的用户输入和ChatGPT回复。数据集包括状态、国家、散列的IP地址、请求头部以及完整的对话记录。数据集中包含了用户与聊天机器人的各种交互，如模棱两可的请求、代码切换、话题转换、政治辩论等。此外，还包含来自推理模型'o1-preview'和'o1-mini'的11万8千多次非毒性对话。

创建时间：

2025-11-16

原始信息汇总

WildChat-4.8M 数据集概述

数据集基本信息

数据集名称: WildChat-4.8M
许可证: odc-by
数据规模: 1M<n<10M
任务类别: 文本生成、问答
数据量: 3,199,860 个对话
数据集大小: 42,645,714,270.24 字节
下载大小: 15,282,293,424 字节

数据集来源

基础版本: 从 WildChat-4.8M-Full 数据集过滤而来
原始对话数: 4,804,190 个对话
过滤后对话数: 3,199,860 个非毒性对话
过滤掉对话数: 1,543,476 个毒性对话

数据特征

核心字段

conversation_hash: 对话内容哈希值
model: OpenAI 模型名称
timestamp: 对话最后轮次的时间戳
conversation: 用户/助手对话轮次列表
turn: 对话轮次数量
language: 对话语言

对话内容结构

每个对话轮次包含：

content: 对话内容
role: 说话者角色（用户或助手）
language: 检测到的语言
toxic: 是否包含毒性内容
redacted: 是否已匿名化处理
turn_identifier: 唯一标识符

用户信息字段

hashed_ip: 哈希处理的IP地址
state: 推断的州/省信息
country: 推断的国家信息
header: 请求头信息

模型响应信息

timestamp: 服务器接收响应时间
temperature: 温度参数
top_p: Top-p参数
token_counter: 令牌计数
usage: 使用详情统计

内容审核信息

openai_moderation: OpenAI审核结果
detoxify_moderation: Detoxify审核结果
toxic: 整体毒性标记

模型分布

模型系列	对话数量
gpt-4o	1,539,780
gpt-3.5-turbo	688,900
gpt-4.1-mini	634,037
gpt-4	202,915
o1-mini	58,529
o1-preview	53,307
gpt-4-turbo	22,392

特殊特性

推理模型对话: 包含 111,836 个来自 o1-preview 和 o1-mini 的非毒性推理模型对话
多语言支持: 覆盖数十种语言（早期版本检测到68种）
地理位置信息: 包含基于IP地址推断的地理位置数据
内容审核: 使用OpenAI Moderation API和Detoxify进行毒性内容过滤

数据处理

去标识化: 使用Microsoft Presidio、自定义正则规则和手动调整
秘密信息移除: 使用TruffleHog扫描移除已验证的秘密信息
毒性过滤: 仅保留被OpenAI Moderations API或Detoxify标记为非毒性的对话

相关资源

交互式搜索工具: https://wildvisualizer.com
WildChat论文: https://arxiv.org/abs/2405.01470
WildVis论文: https://arxiv.org/abs/2409.03753
完整版本: https://huggingface.co/datasets/allenai/WildChat-4.8M-Full

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建真实用户交互数据集对理解人机对话模式至关重要。WildChat-4.8M通过收集真实用户与ChatGPT的对话记录构建而成，原始数据经过严格的内容筛选流程，采用OpenAI审核接口与Detoxify工具双重过滤机制，移除了被标记为有害的对话内容。数据预处理阶段运用微软Presidio框架与自定义正则规则进行匿名化处理，并通过TruffleHog扫描清除已验证的敏感信息，最终形成包含319万条非毒性对话的纯净语料库。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，利用其丰富的对话元数据开展多项研究。在模型训练方面，该数据集适用于指令微调任务，特别是对安全对齐模型的研究具有重要价值。数据分析时可结合对话哈希值与回合标识符进行精准定位，利用语言标签和多轮对话结构研究跨语言对话模式。需要注意的是，若需研究包含有害内容的全版本数据，需另行申请访问权限并提供充分的研究理由。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，对真实世界交互数据的需求日益增长。WildChat-4.8M数据集由艾伦人工智能研究所于2024年创建，核心研究团队包括邓云天等学者，旨在通过收集480万条真实用户与ChatGPT的对话记录，为对话生成与问答任务提供大规模训练资源。该数据集聚焦于多语言环境下的开放式对话场景，涵盖代码转换、话题迁移等复杂交互模式，其非毒性筛选机制为安全对齐研究提供了重要基准，显著推动了对话系统在真实应用场景中的适应性研究。

当前挑战

构建过程中面临双重挑战：在领域问题层面，需解决真实对话中存在的语义模糊性、多语言混合及话题跳跃等自然语言理解难题；在数据构建环节，既要通过OpenAI审核API与Detoxify工具精准识别毒性内容，又需利用微软Presidio框架完成用户隐私信息脱敏，同时应对跨地域用户行为差异带来的数据分布异构性。这些技术难点使得数据清洗与质量保障成为数据集构建的核心瓶颈。

常用场景

经典使用场景

在自然语言处理领域，WildChat-4.8M数据集为研究真实场景下的人机对话交互提供了宝贵资源。其包含的319万条非毒性对话记录，覆盖了多语言环境、话题转换及代码混合等复杂情境，尤其适用于训练和评估对话生成模型的泛化能力。通过整合用户的地理位置、设备信息及多轮对话轨迹，该数据集能够模拟真实世界中的开放式交流模式，为构建更自然的对话系统奠定基础。

解决学术问题

该数据集有效解决了对话系统中数据稀缺性与真实性的核心矛盾。通过过滤毒性内容并保留多样化的用户意图，它为研究对话安全性、跨语言理解以及长文本连贯性提供了标准化实验环境。其包含的11万余条推理模型对话记录，进一步推动了复杂推理任务与指令跟随能力的研究，填补了真实交互数据在学术评估中的空白。

实际应用

在实际部署中，WildChat-4.8M被广泛应用于智能客服系统与个性化助手的优化。企业可利用其多国语言对话样本训练本地化服务机器人，而开发者则通过分析用户请求的分布模式改进意图识别模块。该数据集的地理元数据还能辅助研究文化差异对对话策略的影响，为全球化产品提供数据支撑。

数据集最近研究