five

WildChat-4.8M

收藏
Hugging Face2025-11-16 更新2025-11-17 收录
下载链接:
https://huggingface.co/datasets/HayatoHongo/WildChat-4.8M
下载链接
链接失效反馈
官方服务:
资源简介:
WildChat-4.8M是一个包含约319万次人类用户与ChatGPT之间对话的数据集。这个版本仅包含由OpenAI Moderations API或Detoxify标记为非毒性的用户输入和ChatGPT回复。数据集包括状态、国家、散列的IP地址、请求头部以及完整的对话记录。数据集中包含了用户与聊天机器人的各种交互,如模棱两可的请求、代码切换、话题转换、政治辩论等。此外,还包含来自推理模型'o1-preview'和'o1-mini'的11万8千多次非毒性对话。
创建时间:
2025-11-16
原始信息汇总

WildChat-4.8M 数据集概述

数据集基本信息

  • 数据集名称: WildChat-4.8M
  • 许可证: odc-by
  • 数据规模: 1M<n<10M
  • 任务类别: 文本生成、问答
  • 数据量: 3,199,860 个对话
  • 数据集大小: 42,645,714,270.24 字节
  • 下载大小: 15,282,293,424 字节

数据集来源

  • 基础版本: 从 WildChat-4.8M-Full 数据集过滤而来
  • 原始对话数: 4,804,190 个对话
  • 过滤后对话数: 3,199,860 个非毒性对话
  • 过滤掉对话数: 1,543,476 个毒性对话

数据特征

核心字段

  • conversation_hash: 对话内容哈希值
  • model: OpenAI 模型名称
  • timestamp: 对话最后轮次的时间戳
  • conversation: 用户/助手对话轮次列表
  • turn: 对话轮次数量
  • language: 对话语言

对话内容结构

每个对话轮次包含:

  • content: 对话内容
  • role: 说话者角色(用户或助手)
  • language: 检测到的语言
  • toxic: 是否包含毒性内容
  • redacted: 是否已匿名化处理
  • turn_identifier: 唯一标识符

用户信息字段

  • hashed_ip: 哈希处理的IP地址
  • state: 推断的州/省信息
  • country: 推断的国家信息
  • header: 请求头信息

模型响应信息

  • timestamp: 服务器接收响应时间
  • temperature: 温度参数
  • top_p: Top-p参数
  • token_counter: 令牌计数
  • usage: 使用详情统计

内容审核信息

  • openai_moderation: OpenAI审核结果
  • detoxify_moderation: Detoxify审核结果
  • toxic: 整体毒性标记

模型分布

模型系列 对话数量
gpt-4o 1,539,780
gpt-3.5-turbo 688,900
gpt-4.1-mini 634,037
gpt-4 202,915
o1-mini 58,529
o1-preview 53,307
gpt-4-turbo 22,392

特殊特性

  • 推理模型对话: 包含 111,836 个来自 o1-preview 和 o1-mini 的非毒性推理模型对话
  • 多语言支持: 覆盖数十种语言(早期版本检测到68种)
  • 地理位置信息: 包含基于IP地址推断的地理位置数据
  • 内容审核: 使用OpenAI Moderation API和Detoxify进行毒性内容过滤

数据处理

  • 去标识化: 使用Microsoft Presidio、自定义正则规则和手动调整
  • 秘密信息移除: 使用TruffleHog扫描移除已验证的秘密信息
  • 毒性过滤: 仅保留被OpenAI Moderations API或Detoxify标记为非毒性的对话

相关资源

  • 交互式搜索工具: https://wildvisualizer.com
  • WildChat论文: https://arxiv.org/abs/2405.01470
  • WildVis论文: https://arxiv.org/abs/2409.03753
  • 完整版本: https://huggingface.co/datasets/allenai/WildChat-4.8M-Full
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建真实用户交互数据集对理解人机对话模式至关重要。WildChat-4.8M通过收集真实用户与ChatGPT的对话记录构建而成,原始数据经过严格的内容筛选流程,采用OpenAI审核接口与Detoxify工具双重过滤机制,移除了被标记为有害的对话内容。数据预处理阶段运用微软Presidio框架与自定义正则规则进行匿名化处理,并通过TruffleHog扫描清除已验证的敏感信息,最终形成包含319万条非毒性对话的纯净语料库。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,利用其丰富的对话元数据开展多项研究。在模型训练方面,该数据集适用于指令微调任务,特别是对安全对齐模型的研究具有重要价值。数据分析时可结合对话哈希值与回合标识符进行精准定位,利用语言标签和多轮对话结构研究跨语言对话模式。需要注意的是,若需研究包含有害内容的全版本数据,需另行申请访问权限并提供充分的研究理由。
背景与挑战
背景概述
随着大型语言模型在自然语言处理领域的广泛应用,对真实世界交互数据的需求日益增长。WildChat-4.8M数据集由艾伦人工智能研究所于2024年创建,核心研究团队包括邓云天等学者,旨在通过收集480万条真实用户与ChatGPT的对话记录,为对话生成与问答任务提供大规模训练资源。该数据集聚焦于多语言环境下的开放式对话场景,涵盖代码转换、话题迁移等复杂交互模式,其非毒性筛选机制为安全对齐研究提供了重要基准,显著推动了对话系统在真实应用场景中的适应性研究。
当前挑战
构建过程中面临双重挑战:在领域问题层面,需解决真实对话中存在的语义模糊性、多语言混合及话题跳跃等自然语言理解难题;在数据构建环节,既要通过OpenAI审核API与Detoxify工具精准识别毒性内容,又需利用微软Presidio框架完成用户隐私信息脱敏,同时应对跨地域用户行为差异带来的数据分布异构性。这些技术难点使得数据清洗与质量保障成为数据集构建的核心瓶颈。
常用场景
经典使用场景
在自然语言处理领域,WildChat-4.8M数据集为研究真实场景下的人机对话交互提供了宝贵资源。其包含的319万条非毒性对话记录,覆盖了多语言环境、话题转换及代码混合等复杂情境,尤其适用于训练和评估对话生成模型的泛化能力。通过整合用户的地理位置、设备信息及多轮对话轨迹,该数据集能够模拟真实世界中的开放式交流模式,为构建更自然的对话系统奠定基础。
解决学术问题
该数据集有效解决了对话系统中数据稀缺性与真实性的核心矛盾。通过过滤毒性内容并保留多样化的用户意图,它为研究对话安全性、跨语言理解以及长文本连贯性提供了标准化实验环境。其包含的11万余条推理模型对话记录,进一步推动了复杂推理任务与指令跟随能力的研究,填补了真实交互数据在学术评估中的空白。
实际应用
在实际部署中,WildChat-4.8M被广泛应用于智能客服系统与个性化助手的优化。企业可利用其多国语言对话样本训练本地化服务机器人,而开发者则通过分析用户请求的分布模式改进意图识别模块。该数据集的地理元数据还能辅助研究文化差异对对话策略的影响,为全球化产品提供数据支撑。
数据集最近研究
最新研究方向
在自然语言处理领域,大规模对话数据集正推动人机交互研究的深度发展。WildChat-4.8M凭借其480万条真实用户与ChatGPT的交互记录,为探索开放域对话系统的行为模式提供了珍贵资源。当前研究聚焦于多语言语境下的意图理解与话题迁移机制,特别是通过地理元数据分析跨文化对话特征。该数据集内含的11万条推理模型对话记录,为复杂逻辑推理任务的性能优化提供了新视角。随着数据安全治理需求的提升,基于OpenAI与Detoxify双重过滤机制的有害内容识别技术,已成为构建安全对话系统的关键参考。这些进展不仅深化了对大语言模型泛化能力的认知,更为构建下一代负责任人工智能奠定了数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作