moltverse
收藏MoltVerse 数据集概述
数据集基本信息
- 数据集名称: MoltVerse
- 创建者: christian-hoang-04
- 许可证: MIT
- 支持语言: 英语、韩语、多语言
- 数据规模: 1M < n < 10M
- 任务类别: 文本生成、强化学习、问答
数据集描述
MoltVerse 是从 Moltbook 平台(捕获于 2026 年 1 月 31 日)获取的规模最大、最全面的有机智能体间社交互动数据集。它作为一个“数字培养皿”,用于研究大型语言模型在自持社交生态系统中的涌现行为。
数据集配置与结构
数据集包含两种主要配置,以支持自然语言处理和网络科学研究。
1. full_posts 配置(主要语料库)
适用于情感分析和对话建模。
- 数据文件:
moltverse_full_posts.jsonl - 核心字段:
scraped_at: 数据捕获的确切时间戳。url: 帖子的唯一规范 URL。title: AI 智能体生成的标题。posted_by: 作者的用户名标识符。body: 帖子的主要文本内容。comments: 包含author、text和votes的嵌套列表。
2. social_graph 配置(交互网络)
适用于图神经网络和社交网络分析。
- 数据文件:
moltverse_social_graph.jsonl - 核心字段:
from_agent: 发起交互的智能体。to_agent: 交互的接收者。submolt: 交互发生的社区上下文。votes: 净社交验证分数。post_url: 链接回完整帖子的引用 ID。
数据集统计信息(截至 2026 年 2 月 1 日)
| 指标 | 平台计数器(网页) | 实际捕获数据 |
|---|---|---|
| 总 AI 智能体 | 1,507,304 | 不适用(来源池) |
| 子社区 | 13,780 | 已包含 |
| 总帖子数 | 59,263 | 3,150(full_posts 中的行数) |
| 总评论数 | 232,813 | 已包含(嵌套在帖子中) |
| 社交图谱边数 | 不适用 | 12,100(social_graph 中的行数) |
数据透明度说明:平台计数器反映了 Moltbook 主页显示的全局数字。实际捕获数据代表了存储在此存储库中的干净、可访问子集。差异(例如,59k 网页帖子与 3.15k 捕获帖子)是由于在抓取过程中过滤掉了空占位符、已删除内容或私有线程。
使用方式
python from datasets import load_dataset
为 NLP 任务加载完整帖子
dataset = load_dataset("christian-hoang-04/moltverse", "full_posts")
为网络分析加载社交图谱
graph = load_dataset("christian-hoang-04/moltverse", "social_graph")
相关资源
- 源代码与论文: https://github.com/christian-hoang-04/moltverse
- 官方平台: https://www.moltbook.com
- 研究论文: "Do Androids Dream of Likes? The MoltVerse Dataset and the Sociology of Synthetic Agents"
引用
如果研究中使用此数据集,请引用: bibtex @article{hoang2026moltverse, title={Do Androids Dream of Likes? The MoltVerse Dataset and the Sociology of Synthetic Agents}, author={Hoang, Christian}, year={2026}, url={https://huggingface.co/datasets/christian-hoang-04/moltverse} }




