five

SHARECHAT

收藏
github2026-01-28 更新2026-02-25 收录
下载链接:
https://github.com/raye22/ShareChat
下载链接
链接失效反馈
官方服务:
资源简介:
SHARECHAT是一个大规模的真实用户与大型语言模型(LLM)对话的语料库,直接从五个主要聊天机器人平台的公开共享URL中获取。与现有数据集通过统一界面收集文本数据不同,SHARECHAT保留了平台特定的功能,并捕捉了真实世界的使用模式。数据集覆盖了101种不同的语言,包含142,808个对话和660,293个对话轮次,平均每个对话有4.62轮。

SHARECHAT is a large-scale corpus of real-world conversations between end users and large language models (LLMs), directly scraped from publicly shared URLs across five major chatbot platforms. Unlike existing datasets that collect textual data via unified interfaces, SHARECHAT preserves platform-specific functionalities and captures real-world usage patterns. The corpus covers 101 distinct languages, containing 142,808 total conversations and 660,293 conversational turns, with an average of 4.62 turns per conversation.
创建时间:
2026-01-27
原始信息汇总

SHARECHAT 数据集概述

数据集简介

SHARECHAT 是一个大规模的真实用户与大语言模型(LLM)对话语料库,其对话内容直接来源于五个主要聊天机器人平台上公开分享的URL。与通过统一接口收集交互从而同质化交互的现有数据集不同,SHARECHAT 保留了原生平台的功能特性,并捕捉了真实世界的使用模式。

核心特点

  • 保留原生功能:捕获平台特定功能,如引用、思考痕迹和代码工件。
  • 多平台覆盖:涵盖五个具有不同设计理念的主要平台。
  • 真实使用场景:源自自愿分享的对话,减少了观察者偏差。
  • 扩展的交互:对话长度显著长于先前数据集(平均 4.62 轮 vs. LMSYS-Chat-1M 的 2.02 轮)。
  • 语言多样性:涵盖 101 种不同的语言。

数据集统计

总体统计

指标 数值
总对话数 142,808
总轮次数 660,293
每对话平均轮次 4.62
覆盖语言数 101
收集时间段 2023年4月 – 2025年10月
平均用户令牌数 135.04 ± 1,820.88
平均聊天机器人令牌数 1,115.30 ± 1,764.81

令牌统计使用 Llama-2 分词器计算,以确保跨平台比较的一致性。

分平台统计

平台 对话数 轮次数 平均轮次 语言数
ChatGPT 102,740 542,148 5.28 101
Perplexity 17,305 24,378 1.41 45
Grok 14,415 53,094 3.69 60
Gemini 7,402 36,422 4.92 47
Claude 946 4,251 4.49 19

数据收集

对话通过互联网存档服务(Wayback Machine)发现的公开分享URL进行收集。

平台 分享URL格式 收集时间段
ChatGPT chatgpt.com/share/* 2023年5月 – 2025年8月
Perplexity perplexity.ai/search/* 2023年4月 – 2025年10月
Grok grok.com/share/* 2024年12月 – 2025年10月
Gemini gemini.google.com/share/* 2024年4月 – 2025年9月
Claude claude.ai/share/*

不同平台捕获的元数据和结构元素如下:

功能特性 ChatGPT Perplexity Grok Gemini Claude
文本内容
来源引用
思考区块
代码工件
分析区块
轮次时间戳
模型版本
查看/分享计数

IRB批准:数据收集在IRB批准(#28569)下进行。

隐私与个人身份信息移除

采用严格的去标识化流程以优先保护用户隐私。

  1. 使用 Microsoft Presidio 作为核心框架,识别并移除多种数据类型的个人身份信息。
  2. 使用 GPT-OSS-120B 评估PII识别的准确性,并验证每条消息中的PII是否已成功移除。
  3. 手动编码了50个随机选择的被标记为包含PII的对话(288轮)以验证检测准确性。

PII检测覆盖的语言包括:英语、西班牙语、德语、法语、意大利语、葡萄牙语、荷兰语、中文、日语、俄语和希伯来语。

注意:对于发布的最终数据集,仅保留此处列出的受支持语言的对话,并为其他语言的对话提供单独的URL列表。

各平台PII移除成功率如下:

平台 成功率 包含PII的记录数 总记录数
ChatGPT 95.20% 51041 1062949
Claude 97.01% 252 8,504
Gemini 95.43% 3,302 72,746
Grok 94.15% 6,010 106,168
Perplexity 94.42% 2,899 54,355

附加隐私措施

  • 原始的平台特定用户ID和用户名未被存储或发布
  • 分析仅在聚合统计数据上进行。

数据格式

可用文件

数据集以CSV格式发布,便于使用和访问。

注意:当前版本不提供原始HTML/MHTML存档。

CSV结构

每条对话记录包含:

  • 用户和助手轮次的完整序列。
  • 平台特定的元数据:
    • 时间戳(ChatGPT, Grok)
    • 模型版本信息(ChatGPT, Grok, Gemini)
    • 来源引用(Perplexity, Grok)
    • 思考痕迹(Claude, Grok)

最终发布的数据框架提供了来自五个平台的轮次级别对话记录,具有共享的核心模式,其中每一行代表一条消息。所有数据集都包含 platformurlturns_countmessage_indexroleplain_textdetected_language_final,支持对对话结构、内容和语言进行一致的跨平台分析。平台特定的元数据保存在额外的列中。

使用注意事项

  • 不得尝试识别数据集中所包含的个人身份或推断任何敏感的个人数据。
  • 当利用特定模型的直接输出时,用户必须遵守其相应的使用条款。
  • 本数据集中描绘的观点和意见并不反映参与数据收集过程的研究人员或附属机构的观点。

引用

如果在研究中使用SHARECHAT,请引用论文: bibtex @misc{yan2026sharechatdatasetchatbotconversations, title={ShareChat: A Dataset of Chatbot Conversations in the Wild}, author={Yueru Yan and Tuc Nguyen and Bo Su and Melissa Lieffers and Thai Le}, year={2026}, eprint={2512.17843}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.17843}, }

附录:详细平台文档

有关每个平台数据提取过程和技术细节及字段定义,请参阅平台特定文档:

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,大规模对话数据集的构建对于理解人机交互模式至关重要。SHARECHAT数据集的构建采用了独特的“野外”采集策略,通过互联网档案服务(如Wayback Machine)系统性地爬取来自ChatGPT、Perplexity、Grok、Gemini和Claude五大主流聊天机器人平台的公开分享对话URL。该方法跨越了2023年4月至2025年10月的长时间窗口,确保了数据的时效性与广泛性。构建过程严格遵循了机构审查委员会(IRB)的伦理规范,并设计了一套严谨的隐私保护流程,利用Microsoft Presidio框架进行多语言个人身份信息识别与移除,再通过大语言模型进行准确性验证,最终形成了包含14.2万次对话、66万轮次的结构化语料库。
特点
该数据集的核心特征在于其真实性与生态效度,它完整保留了各平台原生的交互特征,如Perplexity和Grok的引用来源、Claude和Grok的思考轨迹、以及Claude独有的代码块与分析模块。与以往仅关注文本内容的同质化数据集不同,SHARECHAT涵盖了101种语言,并记录了平台特有的元数据,包括时间戳、模型版本及分享统计信息。其对话平均轮次达到4.62,显著长于同类数据集,更能反映真实场景中多轮、深度的交互模式。这种多维度、跨平台的数据结构为研究界面设计如何塑造用户行为提供了前所未有的实证基础。
使用方法
研究人员可通过Hugging Face平台获取以CSV格式发布的SHARECHAT数据集。数据采用统一的核心理念进行组织,每条记录对应一个消息轮次,并包含平台标识、对话URL、角色、纯文本内容及检测语言等核心字段。各平台特有的元数据则存储于附加列中,例如Claude的思考与代码块、Gemini的模型与时间戳、以及Perplexity的引用与浏览数据。这种设计支持灵活的跨平台对比分析,可用于探究对话结构、内容生成质量、多语言使用模式以及平台功能对交互的影响。使用时应严格遵守数据许可协议,避免任何试图识别个人身份的行为,并注意不同模型输出内容需遵循其各自的使用条款。
背景与挑战
背景概述
随着大型语言模型(LLM)的广泛应用,其作为商业聊天机器人的集成形态日益多样,各平台独特的界面设计与功能特性深刻塑造了用户交互行为。然而,现有研究数据集多通过统一接口收集纯文本对话,忽略了原生平台特性,难以捕捉真实世界中的人机交互模式。为应对这一局限,由Yueru Yan、Tuc Nguyen等研究人员于2026年构建的SHARECHAT数据集应运而生。该数据集从ChatGPT、Perplexity等五大主流聊天机器人平台公开分享的URL中,系统采集了跨越2023年4月至2025年10月期间的142,808段真实对话,完整保留了如引用、思考链、代码块等平台原生功能元素。其核心研究问题在于探究真实场景下,不同平台特性如何影响用户与LLM的交互模式与对话质量,为理解LLM的实际部署与用户体验提供了前所未有的实证基础,对对话系统、人机交互及自然语言处理领域具有重要影响力。
当前挑战
SHARECHAT数据集旨在解决真实场景下多平台聊天机器人对话分析与建模的挑战。其首要挑战源于领域问题本身:现有数据集因界面同质化,无法有效研究平台特定功能(如Perplexity的引用、Claude的思考链)对交互动态、用户信任及任务完成效率的影响。构建过程中的挑战则更为具体:一是数据采集需从互联网档案馆中精准识别并解析五大平台各异的公开分享URL格式与数据结构,确保对话序列与元数据的完整性;二是隐私保护要求极高,需运用Microsoft Presidio等多语言PII识别框架,并辅以大型模型进行验证,在去除个人敏感信息的同时,尽力维持对话内容的语义连贯性与研究价值,这一过程在覆盖101种语言的异构文本上尤为复杂。
常用场景
经典使用场景
在自然语言处理与人机交互研究领域,SHARECHAT数据集为探究真实场景下用户与大语言模型的交互行为提供了关键资源。该数据集通过采集来自五个主流聊天机器人平台的公开分享对话,保留了平台原生界面特征,如引用、思考痕迹与代码片段,从而能够支持对多模态交互模式、用户参与度以及跨平台行为差异的深入分析。研究者可借此剖析长对话结构、语言多样性以及平台设计对用户行为的影响,为构建更贴近实际应用的对话系统奠定基础。
解决学术问题
SHARECHAT数据集有效应对了现有对话数据集中存在的界面同质化与观察者偏差问题。传统数据集往往通过统一接口收集文本,忽略了商业聊天机器人独特界面与功能对用户行为的塑造作用。该数据集通过捕捉平台原生特性与自愿分享的真实对话,为研究社区提供了探究人机交互真实性、平台设计哲学影响以及多语言对话模式的基础。其涵盖的101种语言与显著更长的平均对话轮次,进一步支持了跨文化沟通分析与长程上下文理解的研究。
衍生相关工作
基于SHARECHAT数据集,研究社区已衍生出一系列探索真实场景人机交互的经典工作。这些研究通常聚焦于平台特性对对话质量的影响、长对话中的连贯性保持机制,以及多语言环境下的用户参与模式分析。部分工作进一步利用其丰富的元数据,如时间戳与模型版本信息,来追踪对话风格的演化趋势或评估不同模型在真实使用中的表现差异。这些衍生研究共同推动了对话系统研究从实验室环境向真实世界应用的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作