moltbook-observatory-archive

Hugging Face2026-02-01 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/SimulaMet/moltbook-observatory-archive

下载链接

链接失效反馈

官方服务：

资源简介：

Moltbook Observatory Archive 数据集是一个SQLite观测数据库的增量导出，以日期分区的Parquet文件形式发布，便于在Hugging Face上高效浏览和查询。数据集包含多个子集，分别对应不同的SQLite表：agents（代理配置文件、元数据、karma和关注者计数）、posts（代理创建的帖子，包括分数和评论计数）、comments（帖子评论，包括分数和父关系）、submolts（子molt元数据和订阅者统计）、follows（代理之间的定向关注关系）、snapshots（周期性全局观测指标）和word_frequency（每小时词频统计）。数据集通过脚本从SQLite增量导出，新Parquet文件每次运行都会追加，每行包含一个表示导出日期的dump_date列。该数据集遵循不操纵、纯归档、研究级和时间感知的哲学，旨在为AI社交网络Moltbook的被动监测和数据归档提供研究工具。数据集采用MIT许可证，适用于社交网络分析、AI行为研究和时间序列分析等任务。

创建时间：

2026-01-31

原始信息汇总

Moltbook Observatory Archive 数据集概述

数据集基本信息

数据集名称: moltbook-observatory-archive
发布者/组织: SimulaMet
许可证: MIT
主要语言: 英语 (en)
标签: moltbook, archive
数据集格式: 按日期分区的 Parquet 文件
数据来源: 从一个 SQLite 观测数据库进行的增量导出

数据内容与结构

数据集包含六个独立的子集（对应原数据库的表），每个子集均可通过下拉菜单切换访问。

子集名称	描述
`agents`	包含智能体档案、元数据、声望值（karma）和关注者数量。
`posts`	包含由智能体创建的帖子，包括分数和评论数量。
`comments`	包含帖子评论，包括分数和父子关系。
`submolts`	包含子社区（submolt）元数据和订阅者统计数据。
`snapshots`	包含周期性的全局观测指标。
`word_frequency`	包含每小时词频统计数据。

数据更新与特征

更新方式: 数据从 SQLite 数据库增量导出。
更新脚本: https://huggingface.co/datasets/SimulaMet/moltbook-observatory-archive/blob/main/sqlite_to_hf_parquet.py
时间标识: 每一行数据都包含一个 dump_date 列，用于指示导出日期。
更新策略: 部分表使用滚动回填窗口来捕获时间戳未发生变化的更新。

设计理念

无干预: 仅观察，从不发布或交互。
纯归档: 存档每一个帖子、每一个智能体及所有内容。
研究级: 数据应可导出和引用。
时间感知: 不仅记录当前状态，也记录历史趋势。

引用信息

如果研究中使用 Moltbook Observatory 或本数据集，请引用以下内容：

BibTeX 格式: bibtex @software{moltbook_observatory, author = {Riegler, Michael A. and Gautam, Sushant}, title = {Moltbook Observatory: Passive Monitoring Dashboard for AI Social Networks}, year = {2026}, url = {https://github.com/kelkalot/moltbook-observatory}, note = {A research tool for collecting and analyzing data from Moltbook, the social network for AI agents} }

@dataset{moltbook_observatory_archive_2026, author = {Gautam, Sushant and Riegler, Michael A.}, title = {Moltbook Observatory Archive}, year = {2026}, publisher = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/SimulaMet/moltbook-observatory-archive}, }

纯文本格式:

Riegler, M. A., & Gautam, S. (2026). Moltbook Observatory: Passive Monitoring Dashboard for AI Social Networks. GitHub. https://github.com/kelkalot/moltbook-observatory Gautam, S., & Riegler, M. A. (2026). Moltbook Observatory Archive. Hugging Face Datasets. https://huggingface.co/datasets/SimulaMet/moltbook-observatory-archive

贡献者

Michael A. Riegler (https://github.com/kelkalot)
Sushant Gautam (https://github.com/SushantGautam)

搜集汇总

数据集介绍

构建方式

在人工智能社交网络研究领域，moltbook-observatory-archive数据集通过被动监控与归档机制构建而成。其核心方法是从Moltbook Observatory的实时SQLite数据库中执行增量导出，并利用专用脚本将数据转换为按日期分区的Parquet文件格式。这一过程确保了数据的完整性与时序连续性，每一行记录均包含标识导出日期的`dump_date`字段，部分表格还采用了滚动回填窗口以捕捉时间戳未变动的更新，从而形成一套结构清晰、便于高效查询的档案库。

特点

该数据集在人工智能社交网络分析中展现出鲜明的特征，其内容涵盖代理档案、帖子、评论、子社区、关注关系、系统快照及词频统计等多个维度，并以独立的子集形式组织。数据遵循纯粹归档原则，杜绝任何人为干预，完整保留了平台的历史状态与动态演变。采用Parquet列式存储与分区策略，不仅提升了大规模数据浏览与查询的效率，也为研究社区提供了可引用、可复现的高质量资源，支持对AI社交网络行为与趋势的深度探索。

使用方法

对于希望利用该数据集的研究者，可通过Hugging Face平台直接访问，利用其提供的交互式表格与下拉菜单在不同子集间切换。数据以日期分区的Parquet文件形式存储，适合使用Pandas、Dask或Spark等工具进行时序分析与聚合计算。研究应用可聚焦于社交网络结构演化、内容传播模式、用户行为动力学或自然语言使用趋势等方面，结合数据中的时间戳与关系字段，构建纵向或横向的比较分析模型。

背景与挑战

背景概述

Moltbook-Observatory-Archive数据集由Michael A. Riegler与Sushant Gautam于2026年创建，隶属于SimulaMet研究机构，旨在为人工智能社交网络Moltbook提供被动监测与归档支持。该数据集核心研究问题聚焦于捕捉AI代理在社交互动中产生的动态行为数据，包括用户档案、帖子、评论及社交关系等多元信息，以时间分区Parquet格式高效存储，支持历史趋势分析。作为新兴AI社交生态的研究基础设施，该数据集为理解自主代理的群体行为、信息传播模式及网络演化机制提供了关键实证基础，推动了多智能体系统与社会计算领域的交叉研究。

当前挑战

该数据集致力于解决AI社交网络中动态交互行为的全面监测与归档挑战，具体包括如何实时捕获海量非结构化交互数据，并确保其时间一致性与完整性。在构建过程中，面临多重技术难题：需设计增量导出机制以处理SQLite数据库的持续更新，同时维护数据的历史版本与滚动回填；此外，在保持“纯归档”哲学下，需平衡数据规模与查询效率，避免因数据膨胀影响分析性能。这些挑战要求精细的时间序列管理与高效存储策略，以支撑研究级的数据可复现性与长期趋势挖掘。

常用场景

经典使用场景

在人工智能社交网络研究领域，moltbook-observatory-archive数据集为学者提供了观察AI代理社交行为的珍贵窗口。其经典使用场景聚焦于分析Moltbook平台上代理的互动模式、内容生成与传播机制。研究者通过整合agents、posts、comments等子集，能够深入探究代理间的社交网络结构、信息流动态以及社区形成过程，为理解自主代理在模拟社会环境中的集体行为奠定数据基础。

衍生相关工作

围绕该数据集已衍生出一系列经典研究工作。基于其构建的被动监测框架，研究者开发了用于分析AI代理社交网络结构的图算法与社区检测模型。利用时间序列数据snapshots和comments，学者们提出了衡量信息级联与争议动态的新指标。这些工作不仅深化了对AI驱动社交现象的理解，也为更广泛的在线社交网络分析、多代理系统评估以及人机交互研究提供了方法论借鉴与比较基准。

数据集最近研究