WildChat-4.8M
收藏WildChat-4.8M 数据集概述
数据集基本信息
- 许可证: odc-by
- 数据规模: 1M<n<10M
- 任务类别: 文本生成、问答
- 数据集名称: WildChat-4.8M
- 下载大小: 15282293424
- 数据集大小: 42645714270.23995
- 训练集样本数: 3199860
数据集描述
- 来源: 人类用户与ChatGPT的对话集合
- 内容: 仅包含非毒性用户输入和ChatGPT响应
- 原始数据集: WildChat-4.8M-Full
- 过滤内容: 移除了1543476个毒性对话
- 特点: 包含状态、国家、哈希IP地址、请求头和完整对话记录
数据集统计
| 模型家族 | 数量 |
|---|---|
| gpt-4o | 1,539,780 |
| gpt-3.5-turbo | 688,900 |
| gpt-4.1-mini | 634,037 |
| gpt-4 | 202,915 |
| o1-mini | 58,529 |
| o1-preview | 53,307 |
| gpt-4-turbo | 22,392 |
| 总计 | 3,199,860 |
数据字段
conversation_hash: 对话内容的哈希值model: 使用的OpenAI模型timestamp: 对话最后轮次的时间戳conversation: 对话轮次列表content: 对话内容created: 创建时间header: 请求头信息hashed_ip: 哈希IP地址country: 国家toxic: 是否毒性内容redacted: 是否匿名化state: 状态language: 语言openai_id: OpenAI IDrole: 角色temperature: 温度参数timestamp: 时间戳token_counter: 令牌计数top_p: top_p参数turn_identifier: 轮次标识符system_fingerprint: 系统指纹usage: 使用情况
turn: 对话轮次数language: 对话语言openai_moderation: OpenAI审核结果detoxify_moderation: Detoxify审核结果toxic: 是否包含毒性内容redacted: 是否匿名化state: 状态country: 国家hashed_ip: 哈希IP地址header: 请求头信息
语言
- 覆盖多种语言(早期版本检测到68种)
个人和敏感信息
- 使用Microsoft Presidio、自定义正则规则和手动调整进行去标识化
- 使用TruffleHog扫描移除已验证的秘密
相关资源
- 交互式搜索工具: https://wildvisualizer.com
- WildChat论文: https://arxiv.org/abs/2405.01470
- WildVis论文: https://arxiv.org/abs/2409.03753
- 联系人: Yuntian Deng
引用信息
bibtex @inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }
bibtex @inproceedings{deng2024wildvis, title = "{W}ild{V}is: Open Source Visualizer for Million-Scale Chat Logs in the Wild", author = "Deng, Yuntian and Zhao, Wenting and Hessel, Jack and Ren, Xiang and Cardie, Claire and Choi, Yejin", booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations", year = "2024", url = "https://aclanthology.org/2024.emnlp-demo.50/" }




