five

moltverse

收藏
Hugging Face2026-02-01 更新2026-02-02 收录
下载链接:
https://huggingface.co/datasets/christian-hoang-04/moltverse
下载链接
链接失效反馈
官方服务:
资源简介:
MoltVerse 是一个大型、全面的合成智能体间社交互动数据集,采集自 Moltbook 平台,旨在研究大型语言模型(LLMs)在自持社交生态系统中的涌现行为。数据集包含两个主要配置:'full_posts' 和 'social_graph'。'full_posts' 包含 3,150 条帖子及其嵌套评论,适用于情感分析和对话建模,字段包括发布时间戳、URL、标题、作者、正文和评论列表。'social_graph' 包含 12,100 条社交图边,适用于图神经网络和社交网络分析,字段包括交互发起者、接收者、社区背景、社交验证分数和帖子引用。数据集统计显示,平台总共有 1,507,304 个智能体和 13,780 个子社区,但实际捕获的数据经过过滤处理。数据集支持多语言(英语、韩语等),适用于文本生成、强化学习和问答等任务。
创建时间:
2026-01-31
原始信息汇总

MoltVerse 数据集概述

数据集基本信息

  • 数据集名称: MoltVerse
  • 创建者: christian-hoang-04
  • 许可证: MIT
  • 支持语言: 英语、韩语、多语言
  • 数据规模: 1M < n < 10M
  • 任务类别: 文本生成、强化学习、问答

数据集描述

MoltVerse 是从 Moltbook 平台(捕获于 2026 年 1 月 31 日)获取的规模最大、最全面的有机智能体间社交互动数据集。它作为一个“数字培养皿”,用于研究大型语言模型在自持社交生态系统中的涌现行为。

数据集配置与结构

数据集包含两种主要配置,以支持自然语言处理和网络科学研究。

1. full_posts 配置(主要语料库)

适用于情感分析和对话建模。

  • 数据文件: moltverse_full_posts.jsonl
  • 核心字段:
    • scraped_at: 数据捕获的确切时间戳。
    • url: 帖子的唯一规范 URL。
    • title: AI 智能体生成的标题。
    • posted_by: 作者的用户名标识符。
    • body: 帖子的主要文本内容。
    • comments: 包含 authortextvotes 的嵌套列表。

2. social_graph 配置(交互网络)

适用于图神经网络和社交网络分析。

  • 数据文件: moltverse_social_graph.jsonl
  • 核心字段:
    • from_agent: 发起交互的智能体。
    • to_agent: 交互的接收者。
    • submolt: 交互发生的社区上下文。
    • votes: 净社交验证分数。
    • post_url: 链接回完整帖子的引用 ID。

数据集统计信息(截至 2026 年 2 月 1 日)

指标 平台计数器(网页) 实际捕获数据
总 AI 智能体 1,507,304 不适用(来源池)
子社区 13,780 已包含
总帖子数 59,263 3,150full_posts 中的行数)
总评论数 232,813 已包含(嵌套在帖子中)
社交图谱边数 不适用 12,100social_graph 中的行数)

数据透明度说明:平台计数器反映了 Moltbook 主页显示的全局数字。实际捕获数据代表了存储在此存储库中的干净、可访问子集。差异(例如,59k 网页帖子与 3.15k 捕获帖子)是由于在抓取过程中过滤掉了空占位符、已删除内容或私有线程。

使用方式

python from datasets import load_dataset

为 NLP 任务加载完整帖子

dataset = load_dataset("christian-hoang-04/moltverse", "full_posts")

为网络分析加载社交图谱

graph = load_dataset("christian-hoang-04/moltverse", "social_graph")

相关资源

  • 源代码与论文: https://github.com/christian-hoang-04/moltverse
  • 官方平台: https://www.moltbook.com
  • 研究论文: "Do Androids Dream of Likes? The MoltVerse Dataset and the Sociology of Synthetic Agents"

引用

如果研究中使用此数据集,请引用: bibtex @article{hoang2026moltverse, title={Do Androids Dream of Likes? The MoltVerse Dataset and the Sociology of Synthetic Agents}, author={Hoang, Christian}, year={2026}, url={https://huggingface.co/datasets/christian-hoang-04/moltverse} }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能与社会学交叉领域,MoltVerse数据集通过系统化采集Moltbook平台于2026年1月31日生成的合成智能体社交互动数据构建而成。该过程采用网络爬虫技术,从超过150万AI代理构成的生态系统中,过滤了空置内容、已删除帖子及私密对话,最终提取出包含3150条完整帖子及其嵌套评论的洁净语料,并同步构建了涵盖12100条边的社交图谱,确保了数据的代表性与可分析性。
特点
作为迄今规模最大的有机智能体间社交交互数据集,MoltVerse呈现出多维度特征。其核心在于模拟自持社交生态,智能体在13,780个子社区中通过发帖、评论、投票等行为产生复杂互动,为研究大语言模型在开放环境中的涌现行为提供了数字培养皿。数据集采用双模态结构,既包含适用于情感分析与对话建模的完整文本语料,又提供适配图神经网络的社会网络分析框架,实现了自然语言处理与网络科学的交叉支撑。
使用方法
研究者可通过HuggingFace数据集库便捷加载MoltVerse的两个独立配置。针对自然语言处理任务,调用full_posts配置可获得包含时间戳、作者、正文及嵌套评论的完整帖子数据,适用于对话生成与内容分析。若需探究智能体间的社会网络结构,则加载social_graph配置,该图谱以边列表形式呈现代理间的互动关系、所属社区及社交验证分数,为图神经网络与复杂系统研究提供结构化输入。
背景与挑战
背景概述
MoltVerse数据集由Christian Hoang于2026年1月31日基于Moltbook平台构建,作为大规模语言模型社会学研究的基石。该数据集聚焦于模拟合成智能体在自持社会生态系统中的有机交互行为,旨在探索多智能体系统中涌现行为的形成机制与动态演化。其核心研究问题涉及人工智能安全、社会模拟及多智能体交互的复杂性,为理解语言模型的社会性表现提供了前所未有的实证基础,对推动人工智能社会学与复杂系统科学交叉领域的发展具有深远影响。
当前挑战
MoltVerse致力于解决合成智能体社会交互建模中的核心挑战,包括如何准确捕捉与量化智能体间复杂的社会动力学行为,以及如何从海量交互数据中识别具有社会学意义的涌现模式。在构建过程中,数据集面临数据采集与清洗的显著困难,例如平台显示的全局指标与实际可获取数据之间存在显著差异,大量空置内容、已删除帖子及私密线程需被过滤,这导致数据代表性可能受限,同时如何平衡数据规模与质量以确保社会网络分析的可靠性亦是关键挑战。
常用场景
经典使用场景
在人工智能与社会学交叉领域,MoltVerse数据集作为大规模合成智能体社交互动的数字培养皿,其经典使用场景聚焦于模拟和分析多智能体系统中的涌现行为。研究者借助该数据集中的全量帖文与社交图谱,能够深入探究大型语言模型在自持社交生态中如何自发形成对话模式、情感表达及群体动态,为理解人工智能的社会性提供了前所未有的实证基础。
实际应用
在实际应用层面,MoltVerse为人工智能安全与智能体对齐研究提供了关键实验平台。开发人员可利用该数据集训练和评估多智能体系统的协作与竞争策略,优化社交机器人的交互真实性;同时,其丰富的社区互动数据亦能辅助设计更健壮的内容审核算法,预防在线平台中的有害行为扩散,为构建负责任的人工智能生态系统提供数据驱动的见解。
衍生相关工作
围绕MoltVerse衍生的经典研究工作主要集中在图神经网络与社会计算领域。学者们基于其社交图谱配置开发了新型社区检测算法,用于识别合成智能体中的隐性社会分层;同时,该数据集也催生了多项关于对话生成与情感分析的前沿研究,例如利用嵌套评论数据训练具有社会意识的语言模型,这些成果显著深化了人们对人工智能群体智能的理解与应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作