SHARECHAT
收藏SHARECHAT 数据集概述
数据集简介
SHARECHAT 是一个大规模的真实用户与大语言模型(LLM)对话语料库,其对话内容直接来源于五个主要聊天机器人平台上公开分享的URL。与通过统一接口收集交互从而同质化交互的现有数据集不同,SHARECHAT 保留了原生平台的功能特性,并捕捉了真实世界的使用模式。
核心特点
- 保留原生功能:捕获平台特定功能,如引用、思考痕迹和代码工件。
- 多平台覆盖:涵盖五个具有不同设计理念的主要平台。
- 真实使用场景:源自自愿分享的对话,减少了观察者偏差。
- 扩展的交互:对话长度显著长于先前数据集(平均 4.62 轮 vs. LMSYS-Chat-1M 的 2.02 轮)。
- 语言多样性:涵盖 101 种不同的语言。
数据集统计
总体统计
| 指标 | 数值 |
|---|---|
| 总对话数 | 142,808 |
| 总轮次数 | 660,293 |
| 每对话平均轮次 | 4.62 |
| 覆盖语言数 | 101 |
| 收集时间段 | 2023年4月 – 2025年10月 |
| 平均用户令牌数 | 135.04 ± 1,820.88 |
| 平均聊天机器人令牌数 | 1,115.30 ± 1,764.81 |
令牌统计使用 Llama-2 分词器计算,以确保跨平台比较的一致性。
分平台统计
| 平台 | 对话数 | 轮次数 | 平均轮次 | 语言数 |
|---|---|---|---|---|
| ChatGPT | 102,740 | 542,148 | 5.28 | 101 |
| Perplexity | 17,305 | 24,378 | 1.41 | 45 |
| Grok | 14,415 | 53,094 | 3.69 | 60 |
| Gemini | 7,402 | 36,422 | 4.92 | 47 |
| Claude | 946 | 4,251 | 4.49 | 19 |
数据收集
对话通过互联网存档服务(Wayback Machine)发现的公开分享URL进行收集。
| 平台 | 分享URL格式 | 收集时间段 |
|---|---|---|
| ChatGPT | chatgpt.com/share/* |
2023年5月 – 2025年8月 |
| Perplexity | perplexity.ai/search/* |
2023年4月 – 2025年10月 |
| Grok | grok.com/share/* |
2024年12月 – 2025年10月 |
| Gemini | gemini.google.com/share/* |
2024年4月 – 2025年9月 |
| Claude | claude.ai/share/* |
— |
不同平台捕获的元数据和结构元素如下:
| 功能特性 | ChatGPT | Perplexity | Grok | Gemini | Claude |
|---|---|---|---|---|---|
| 文本内容 | ✓ | ✓ | ✓ | ✓ | ✓ |
| 来源引用 | – | ✓ | ✓ | – | – |
| 思考区块 | – | – | ✓ | – | ✓ |
| 代码工件 | – | – | – | – | ✓ |
| 分析区块 | – | – | – | – | ✓ |
| 轮次时间戳 | ✓ | – | ✓ | – | – |
| 模型版本 | ✓ | – | ✓ | ✓ | – |
| 查看/分享计数 | – | ✓ | – | – | – |
IRB批准:数据收集在IRB批准(#28569)下进行。
隐私与个人身份信息移除
采用严格的去标识化流程以优先保护用户隐私。
- 使用 Microsoft Presidio 作为核心框架,识别并移除多种数据类型的个人身份信息。
- 使用 GPT-OSS-120B 评估PII识别的准确性,并验证每条消息中的PII是否已成功移除。
- 手动编码了50个随机选择的被标记为包含PII的对话(288轮)以验证检测准确性。
PII检测覆盖的语言包括:英语、西班牙语、德语、法语、意大利语、葡萄牙语、荷兰语、中文、日语、俄语和希伯来语。
注意:对于发布的最终数据集,仅保留此处列出的受支持语言的对话,并为其他语言的对话提供单独的URL列表。
各平台PII移除成功率如下:
| 平台 | 成功率 | 包含PII的记录数 | 总记录数 |
|---|---|---|---|
| ChatGPT | 95.20% | 51041 | 1062949 |
| Claude | 97.01% | 252 | 8,504 |
| Gemini | 95.43% | 3,302 | 72,746 |
| Grok | 94.15% | 6,010 | 106,168 |
| Perplexity | 94.42% | 2,899 | 54,355 |
附加隐私措施
- 原始的平台特定用户ID和用户名未被存储或发布。
- 分析仅在聚合统计数据上进行。
数据格式
可用文件
数据集以CSV格式发布,便于使用和访问。
注意:当前版本不提供原始HTML/MHTML存档。
CSV结构
每条对话记录包含:
- 用户和助手轮次的完整序列。
- 平台特定的元数据:
- 时间戳(ChatGPT, Grok)
- 模型版本信息(ChatGPT, Grok, Gemini)
- 来源引用(Perplexity, Grok)
- 思考痕迹(Claude, Grok)
最终发布的数据框架提供了来自五个平台的轮次级别对话记录,具有共享的核心模式,其中每一行代表一条消息。所有数据集都包含 platform、url、turns_count、message_index、role、plain_text 和 detected_language_final,支持对对话结构、内容和语言进行一致的跨平台分析。平台特定的元数据保存在额外的列中。
使用注意事项
- 不得尝试识别数据集中所包含的个人身份或推断任何敏感的个人数据。
- 当利用特定模型的直接输出时,用户必须遵守其相应的使用条款。
- 本数据集中描绘的观点和意见并不反映参与数据收集过程的研究人员或附属机构的观点。
引用
如果在研究中使用SHARECHAT,请引用论文: bibtex @misc{yan2026sharechatdatasetchatbotconversations, title={ShareChat: A Dataset of Chatbot Conversations in the Wild}, author={Yueru Yan and Tuc Nguyen and Bo Su and Melissa Lieffers and Thai Le}, year={2026}, eprint={2512.17843}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.17843}, }
附录:详细平台文档
有关每个平台数据提取过程和技术细节及字段定义,请参阅平台特定文档:



