Moltbook

Hugging Face2026-02-03 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/TrustAIRLab/Moltbook

下载链接

链接失效反馈

官方服务：

资源简介：

Moltbook标注数据集包含从Moltbook社交网络收集的44,376个帖子，这些帖子经过GPT-5.2标注，包含9种内容类别和5种毒性级别。数据集中的每个帖子都包含丰富的元数据，如评论数、内容、创建时间、投票数、标题、URL等，并移除了作者信息以保护隐私。内容类别包括身份、技术、社交、经济、观点、推广、政治、垃圾和其他；毒性级别从安全到恶意分为5级。该数据集适用于社交网络分析、内容分类、毒性检测等任务。数据集的总大小为44,995,825字节，下载大小为26,389,457字节。

The Moltbook Annotated Dataset contains 44,376 posts collected from the Moltbook social network, which were annotated using GPT-5.2. It covers 9 content categories and 5 toxicity levels. Each post in the dataset includes rich metadata such as the number of comments, post content, creation time, vote count, title, URL, etc., while author information has been removed to protect user privacy. The content categories include identity, technology, society, economy, opinion, promotion, politics, spam, and others; the toxicity levels are divided into 5 tiers ranging from safe to malicious. This dataset is applicable to tasks such as social network analysis, content classification, and toxicity detection. The total size of the dataset is 44,995,825 bytes, and the download size is 26,389,457 bytes.

创建时间：

2026-02-02

搜集汇总

数据集介绍

构建方式

在人工智能社交网络研究领域，Moltbook数据集的构建体现了对新兴数字社会空间的系统性观察。该数据集通过爬取Moltbook平台上的公开内容，收集了超过4.4万条帖文和1.2万个社区板块的原始数据。随后，研究团队采用GPT-5.2模型对每一条帖文进行了精细标注，依据预先定义的分类体系，为内容划分了九个主题类别，并评估了五个级别的毒性程度。整个构建过程注重数据的代表性与标注的一致性，为分析智能体社交行为提供了结构化的基础。

特点

Moltbook数据集的核心特征在于其多维度的标注体系与丰富的元数据结构。数据集不仅包含帖文的原始内容与互动数据，如投票数、评论数和发布时间，还深度标注了每篇内容所属的主题领域，涵盖身份认知、技术讨论、社会交往等多个维度。尤为突出的是，数据集引入了细致的毒性分级标注，从安全对话到恶意内容共分五级，为研究在线社区的言论安全与交互质量提供了量化依据。这种结合内容分类与安全评估的双重标注框架，使该数据集在智能体社交网络研究中具有独特的分析价值。

使用方法

该数据集适用于计算社会科学与人工智能行为学的研究场景。研究者可通过HuggingFace平台直接加载数据集，利用其提供的两个配置——posts和submolts——分别分析帖文内容与社区板块的属性和动态。在具体应用中，学者可依据主题标签和毒性级别进行数据筛选，开展如社区话题演化、毒性言论传播模式或智能体交互特征等方面的实证研究。数据集中保留的元数据字段，如投票数、订阅者数量和时间戳，支持时间序列分析与网络关系建模，为深入理解自主智能体构成的社交生态提供了可靠的数据基础。

背景与挑战

背景概述

Moltbook数据集由Yukun Jiang、Yage Zhang、Xinyue Shen、Michael Backes和Yang Zhang等研究人员于2026年构建并发布，旨在对新兴的智能体社交网络Moltbook进行首次系统性观察与分析。该数据集的核心研究问题聚焦于理解自主智能体在去中心化社交平台上的互动模式、内容生成特性及其潜在的社会影响。通过采集超过4.4万条经过GPT-5.2标注的帖子和1.2万个子社区数据，并引入九种内容类别与五级毒性水平的精细标注体系，该工作为计算社会科学、人工智能伦理及多智能体系统研究提供了宝贵的实证基础，推动了人机混合社交环境生态研究的深化。

当前挑战

在领域层面，Moltbook数据集致力于应对智能体社交网络中内容理解与安全评估的复杂挑战，包括对非人类生成内容的语义分类、毒性言论的多维度量化以及新兴社交行为模式的识别。构建过程中的挑战主要体现在数据采集与标注的复杂性上：一方面，需从动态演化的去中心化平台中高效抓取并清洗大规模异构数据，同时规避隐私泄露风险；另一方面，依赖先进大语言模型进行自动化标注时，必须确保类别定义（如身份反思、技术交流、观点表达等）的准确性与一致性，并处理模糊内容与跨类别帖子的边界划分问题。

常用场景

经典使用场景

在人工智能代理社交网络的研究领域，Moltbook数据集为探索代理间的交互行为提供了丰富的实证基础。该数据集通过标注超过四万条帖子的内容类别与毒性等级，常被用于分析代理在身份认同、技术交流、社交互动等多维度下的表达模式，为理解代理社会网络的结构与动态演化奠定了数据支撑。

衍生相关工作

围绕Moltbook数据集，已衍生出多项经典研究工作，例如对代理社交网络拓扑结构的分析、基于内容类别的代理角色建模，以及毒性检测算法的优化。这些工作不仅深化了对代理社会行为的理解，还为后续研究提供了方法论参考，推动了人工智能与社会计算领域的交叉创新。

数据集最近研究