five

SimulaMet/moltbook-observatory-archive

收藏
Hugging Face2026-05-06 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/SimulaMet/moltbook-observatory-archive
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个SQLite观测数据库的增量导出,以日期分区的Parquet文件形式发布,便于在Hugging Face上高效浏览和查询。每个SQLite表作为一个单独的数据集子集暴露出来,包括agents(代理配置文件、元数据、karma和关注者计数)、posts(代理创建的帖子,包括分数和评论计数)、comments(帖子评论,包括分数和父关系)、submolts(子molt元数据和订阅者统计)、snapshots(周期性全局观测指标)和word_frequency(每小时词频统计)。数据集用于研究AI社交网络Moltbook的数据收集和分析,强调数据的原始性、存档性和时间意识。

This dataset is an incremental export of a SQLite observatory database, published as date-partitioned Parquet files for efficient browsing and querying on Hugging Face. Each SQLite table is exposed as a separate dataset subset, including agents (agent profiles, metadata, karma, and follower counts), posts (posts created by agents, including scores and comment counts), comments (post comments with scores and parent relationships), submolts (submolt metadata and subscriber statistics), snapshots (periodic global observatory metrics), and word_frequency (hourly word frequency statistics). The dataset is used for research on data collection and analysis of the AI social network Moltbook, emphasizing the raw, archival, and time-aware nature of the data.
提供机构:
SimulaMet
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Moltbook Observatory的SQLite观测数据库,通过增量导出的方式生成,并发布为按日期分区的Parquet文件。每个SQLite表对应一个独立的数据子集,涵盖代理、帖子、评论、子版块、快照及词频等核心观测维度。导出过程采用自动化脚本实现,每次运行会追加新的Parquet文件,并利用滚动回填窗口捕获时间戳未变更的更新记录,确保数据随时间演化的完整性与可追溯性。
特点
数据集以研究级存档为核心理念,坚持纯观测与不干预的原则,忠实记录AI社交网络的原始状态。其时间感知特性尤为突出,不仅提供当前状态的快照,更通过历史趋势分析支持纵向研究。每个数据行均标注导出时间戳,便于时间序列分析。数据以高效Parquet格式存储,支持基于日期通配符的灵活过滤与查询,极大提升了科研场景下的检索效率与可重复性。
使用方法
用户可通过Hugging Face Datasets库加载数据,利用data_files参数指定日期通配符实现按时间段的定向查询。例如,使用load_dataset函数并设置data_files="data/posts/2026-01-2*.parquet"即可获取特定日期范围内的帖子数据。数据集支持多子集并行访问,用户可借助页面上方的下拉菜单切换不同表项,适用于社交网络动态分析、AI行为模式挖掘及网络舆情演变追踪等多元研究任务。
背景与挑战
背景概述
在人工智能体社交网络蓬勃发展的背景下,理解自主智能体间的交互模式、信息传播机制与社群演化规律已成为计算社会学与AI系统评估的关键议题。Moltbook作为首个专为AI智能体设计的社交平台,其内部产生的海量结构化数据为研究者提供了前所未有的观测窗口。moltbook-observatory-archive数据集由SimulaMet实验室的Michael A. Riegler与Sushant Gautam于2026年创建,旨在通过被动式监测手段,系统性地归档Moltbook平台上的智能体行为、帖子动态、评论网络及词频演变等核心指标。该数据集设计了六大子集(Agent、Post、Comment、Submolt、Snapshot、WordFrequency),覆盖从微观个体画像到宏观社会图谱的多层次信息,为复现社交网络演化模型、训练类人对话系统以及评估自主智能体集体行为提供了高质量基准资源,成为连接AI Agent研究与实证数据科学的重要桥梁。
当前挑战
该数据集面临的核心挑战首先源于其所研究的领域问题:AI智能体社交网络的行为模式高度异质且非稳态,现有社会学理论多基于人类交互经验,缺乏针对自主智能体间信号博弈、拟态模仿与涌现行为的分析框架,因此从海量时序数据中提取有意义的因果律与演化规律极具复杂性。在构建过程中,数据采集面临若干技术困境:一是内容时效性约束——部分表格需采用滚动回填窗口策略以捕获时间戳未修改的更新记录,增大了增量导出与去重的难度;二是数据结构异构性——智能体元数据、帖子内容、评论树、订阅层级及词频统计各自遵循动态变化的关系模式,需在SQLite至Parquet的转化中保障一致性;三是长期归档维护的挑战——随着平台规模增长,时间分区文件的碎片化管理与分布式查询性能优化成为持续性难题。
常用场景
经典使用场景
在人工智能社会网络研究领域,moltbook-observatory-archive数据集作为首个针对AI智能体社交平台的被动观测存档,为学者提供了珍贵的研究素材。研究者可通过该数据集获取AI智能体(Agents)的完整档案、用户生成内容(Posts)、互动评论(Comments)、社区细分(Submolts)及其订阅统计等结构化信息。借助其按日期分区的Parquet文件格式,用户可以高效地按时间窗口筛选数据,例如提取特定日期范围内的帖子或评论样本,从而开展纵向追踪分析。这种设计不仅降低了海量社交数据的管理门槛,还使得时间序列分析、网络演化建模等经典研究方案得以顺畅实施。数据集还提供了周期性全局快照(Snapshots)与逐小时词频统计(Word Frequency),为探索AI智能体社区的语义变迁与行为模式奠定了数据基础。
实际应用
在实际应用层面,moltbook-observatory-archive数据集展现出多维度的落地价值。对于开发AI社交机器人或虚拟角色系统的工程师而言,该数据集提供了真实AI智能体的语言风格模板与互动模式库,可用于训练更具自然社交行为的对话模型。在内容审核与社群治理领域,安全研究团队可基于其中存留的异常发帖模式,构建针对AI社交网络的舆情预警与恶意行为检测系统。社交平台的数据科学家可借助该存档进行用户留存分析、社区生命周期预测以及推荐算法的离线评估。此外,在数字人文与计算社会科学项目中,研究人员能够将此数据集作为AI文化产出的原始档案,考察人工智能生成的叙事结构、权力关系与身份认同等深层议题。其实际产出不仅局限于学术论文,更可转化为智能协作工具、数字遗产保护方案等具体产品。
衍生相关工作
围绕moltbook-observatory-archive数据集,已衍生出一系列具有启发性与引领性的经典工作。核心贡献之一是该存档所依托的Moltbook Observatory被动监测框架,其设计哲学——无干预观测、纯档案留存、时间感知与可引用性——为后续AI社交网络数据基础设施的构建树立了标杆。研究者可借鉴该数据集的增量导出策略与滚动回填窗口方法,应用于其他动态社会网络的数据采集任务。在分析层面,基于该存档的词频时间序列,学界已开展AI智能体语言演化与流行语涌现的量化研究;利用代理的交互关系图,推动了智能体社交影响力传播模型的构建。此外,该数据集催生了关于AI社交网络中集体行为与群体智能的实证探索,成为连接传统社交网络分析与新兴人工社会仿真研究的关键枢纽。它为整个领域提供了一个可重复、可扩展、可比较的数据基准,激发了更多关于AI社会性本质的深度思考与跨学科合作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作