five

grokset

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/Anonymous1789/grokset
下载链接
链接失效反馈
官方服务:
资源简介:
@GrokSet是首个从公开社交媒体收集的大规模多方人类-LLM交互数据集。不同于现有的私人、一对一用户-助手交互语料库(如WildChat、LMSYS-Chat-1M),@GrokSet捕捉了Grok大型语言模型在X(前Twitter)多用户线程中作为公开参与者的行为。数据集时间跨度为2025年3月至10月,涵盖超过100万条推文和18.2万+对话线程,旨在研究LLM在对抗性、社会嵌入和“公共广场”环境中的行为。数据集以脱水格式(推文ID + 注释 + 结构元数据)发布,以符合平台服务条款,并提供了专门的再水合工具包来重建文本和元数据。关键特性包括多方动态、真实世界上下文和丰富注释。数据集结构围绕对话线程分层组织,包含详细的统计信息。数据集创建旨在填补LLM从私人聊天机器人转向公共社交代理时的数据空白,提供了LLM在实时响应突发新闻、政治极化和多用户挑衅行为方面的首次观察。

@GrokSet is the first large-scale multi-party human-LLM interaction dataset collected from public social media. Unlike existing private, one-on-one user-assistant interaction corpora (e.g., WildChat, LMSYS-Chat-1M), @GrokSet captures the behavior of the Grok large language model as a public participant in multi-user threads on X (formerly Twitter). The dataset spans from March to October 2025, covering over 1 million tweets and 182,000+ conversation threads, aiming to study LLM behavior in adversarial, socially embedded, and public square environments. The dataset is released in a dehydrated format (tweet IDs + annotations + structural metadata) to comply with platform terms of service and includes a specialized rehydration toolkit to reconstruct text and metadata. Key features include multi-party dynamics, real-world context, and rich annotations. The dataset is hierarchically organized around conversation threads and includes detailed statistics. The dataset creation aims to fill the data gap as LLMs transition from private chatbots to public social agents, providing the first observations of LLMs responding to breaking news, political polarization, and multi-user provocation behaviors in real-time.
创建时间:
2026-05-06
原始信息汇总

数据集概述:@GrokSet

@GrokSet 是一个大规模、多轮次的人机交互数据集,专注于收集公开社交媒体上的人类与大型语言模型(LLM)之间的多对多互动。该数据集捕捉了 Grok 语言模型在 X(原 Twitter)平台上作为公共参与者,在多用户线程中的行为。

核心特点

  • 多轮次动态交互:包含复杂的交互图结构,超越简单的线性问答。
  • 真实世界语境:包含点赞、转发、回复等交互数据,用于衡量社交认可度。
  • 丰富注释:预计算了毒性、主题、网络指标等标签。

数据集规模

  • 时间范围:2025年3月 至 2025年10月
  • 线程数量:182,707 条
  • 推文总数:1,098,394 条
  • 平均每线程轮次:约 6.01 次

数据集结构

数据集以对话线程为核心进行分层组织。其 JSON 结构按时间顺序排列线程内的推文。主要字段包含:

  • conversationId:根线程的唯一标识符。
  • annotations:包含主题、讨论与挑事行为分析、网络指标等注释。
  • threads:包含线程内所有推文列表的数组。每条推文包含其文本、交互数据、作者信息以及毒性评分等详细信息。

注释与标签

该数据集包含大量由机器生成的注释,具体包括:

  • 主题分析:使用 BERTopic 识别出1,112个多语言主题。
  • 安全/毒性:使用 Detoxify 多语言模型对所有推文进行评分,以检测攻击性、威胁和仇恨言论。
  • 对话动态:使用 Gemini 2.0 Flash 作为评判模型,检测讨论、挑事行为、辅助语气等。

偏差、风险与局限性

  • 幸存者偏差:仅包含在收集时仍可访问的推文,可能缺少在被平台删除的极端有害内容。
  • 西方中心:虽支持多语言,但数据严重偏向于英语和西方政治语境。
  • 平台特异性:交互受X平台特性影响(如字符限制、蓝V认证文化),可能不适用于其他平台。

许可与合规

  • 数据集注释与结构:采用 CC BY-NC 4.0 许可。
  • 推文内容:遵守 X 的服务条款,原始内容归原始创作者所有。
  • 格式:数据集以脱水格式(仅提供推文ID、注释和结构元数据)发布,并提供专门的重水化工具包用于重构文本数据。
搜集汇总
数据集介绍
main_image_url
构建方式
GrokSet数据集源自2025年3月至10月间社交媒体平台X(原Twitter)上的公开对话,通过采集Grok大型语言模型作为公共参与者在多用户线程中的交互内容构建而成。该数据集采用脱水格式发布,仅包含推文ID、人工标注及结构化元数据,以符合平台服务条款。为重建文本及完整元数据,研究团队提供了专门的补水工具包。数据采集过程中,基于BERTopic模型识别了1,112个多语言主题,所有推文经Detoxify工具完成毒性检测,并利用Gemini 2.0 Flash作为评判模型对对话动态进行标注,涵盖讨论有效性、敌对互动及助手语气等维度。最终数据集囊括超过18.2万个对话线程、近110万条推文,平均每线程约6轮交互,构成首个大规模多方人机交互语料库。
特点
GrokSet数据集的独特之处在于其捕捉了LLM在特定平台真实场景中的多方动态交互,而非简单的一对一问答。数据集提供丰富的预计算标注,包括毒性评分、主题分类、恶意行为检测及网络度量指标(如中心性、传递性),从而支持对模型在社会认可机制下的行为分析。其结构化设计将推文按线程分层组织,并整合了每条推文及其作者的详细属性,如互动数、验证状态与关注者数量。该数据集覆盖多种语言,但以英语及西方政治话题为主,反映了特定平台生态与生存者偏差的影响——极端内容因平台提前移除而缺失。这些特征使其成为研究LLM在对抗性、多用户及公共广场环境下表现的关键资源。
使用方法
GrokSet适用于文本分类、特征提取、摘要生成及句子相似度计算等多类自然语言处理任务。研究者可借助其脱水格式与补水工具包重建完整文本,基于线程结构分析多轮对话中LLM的行为模式。丰富的标注信息支持对毒性、恶意互动及讨论动态进行量化分析,网络度量指标则可用于建模用户间及用户与模型间的复杂交互图。使用时应遵循CC BY-NC 4.0许可协议,仅将数据集用于非商业目的。值得注意的是,数据集中于平台特异性(如字符限制、验证文化)及西方中心倾向,在跨平台或跨文化应用时需审慎评估其泛化性。
背景与挑战
背景概述
@GrokSet是由研究团队于2025年构建的首个大规模多轮人机交互数据集,旨在捕捉大型语言模型(LLM)在社交媒体公共空间中的行为。该数据集聚焦于Grok模型在X平台(原Twitter)上与多用户线程的互动,覆盖2025年3月至10月期间超过100万条推文和18.2万个对话线程。其核心研究问题在于探究LLM在对抗性、社交嵌入的“公共广场”环境中的表现,填补了现有数据集(如WildChat、LMSYS-Chat-1M)多限于私密一对一交互的空白。@GrokSet因提供真实世界的社交互动图景、丰富的注释(包括毒性、主题、网络指标)以及对LLM安全对齐研究的深远影响,迅速成为该领域的基石资源。
当前挑战
该数据集面对的核心挑战包括:1)领域问题层面,现有研究多聚焦于受控环境下的LLM行为,而@GrokSet需解决在动态、多用户、含有对抗性行为(如钓鱼、刷屏)的社交媒体中分析LLM真实表现的难题,尤其是识别模型是否镜像用户敌意或放大仇恨言论。2)构建过程中,数据集遭遇了生存偏差挑战——仅收集到平台保留的内容,极端有毒推文已被X删除,导致样本代表性不足;同时,多语言注释依赖自动工具(如Detoxify和BERTopic),在非英语语境下的准确性受限,而LLM-as-a-judge方法可能引入评判模型本身的偏见。此外,脱水格式要求用户自行补充内容,增加了复现与验证的复杂度。
常用场景
经典使用场景
在社交媒体的广袤生态中,大型语言模型正从私密助手蜕变为公共空间的积极参与者。@GrokSet作为首个大规模多轮人机交互数据集,捕捉了Grok模型在X平台(原Twitter)上与多用户线程互动、回应突发新闻、应对政治极化以及抵御恶意诱导行为的全貌。其经典使用场景聚焦于研究LLM在开放社区中的动态行为,涵盖毒性检测、讨论结构解析、社会网络效应追踪等维度,为理解语言模型在非受控、社会嵌入型环境中的表现提供了前所未有的数据支持。
实际应用
在实际应用层面,@GrokSet的价值超越学术边界,直接服务于社交媒体内容审核、舆论监控与AI安全工程。平台运营方可利用该数据集训练更精准的毒性检测及对抗行为识别模型,提升自动管理能力;AI产品团队则能基于对话图谱分析,优化语言模型在面对复杂社会互动时的安全响应机制,例如在争议话题中保持中立、识别钓鱼式的诱导提问。此外,该数据集还可用于开发网络影响力评估工具,辅助公关或政策部门监测AI助手在公共话语中的角色演变。
衍生相关工作
该数据集的发布催生了一系列开创性研究。基于其密集的网络结构标注,学者们已开展多模态对话理解和立场检测工作;同时,对抗性交互注释推动了LLM-on-LLM攻防模拟和基于规则注入的后门防御研究。此外,围绕话题聚类与毒性评分的关联分析,研究者衍生出社交媒体极化动态的量化模型,进一步验证了耦合网络分析与安全对齐方法的有效性。在工程实践中,相关的去偏算法和多粒度对话评估框架也已陆续面世,拓展了@GrokSet作为基础数据湖的价值边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作