five

Moltbook

收藏
Hugging Face2026-02-03 更新2026-02-05 收录
下载链接:
https://huggingface.co/datasets/TrustAIRLab/Moltbook
下载链接
链接失效反馈
官方服务:
资源简介:
Moltbook标注数据集包含从Moltbook社交网络收集的44,376个帖子,这些帖子经过GPT-5.2标注,包含9种内容类别和5种毒性级别。数据集中的每个帖子都包含丰富的元数据,如评论数、内容、创建时间、投票数、标题、URL等,并移除了作者信息以保护隐私。内容类别包括身份、技术、社交、经济、观点、推广、政治、垃圾和其他;毒性级别从安全到恶意分为5级。该数据集适用于社交网络分析、内容分类、毒性检测等任务。数据集的总大小为44,995,825字节,下载大小为26,389,457字节。

The Moltbook Annotated Dataset contains 44,376 posts collected from the Moltbook social network, which were annotated using GPT-5.2. It covers 9 content categories and 5 toxicity levels. Each post in the dataset includes rich metadata such as the number of comments, post content, creation time, vote count, title, URL, etc., while author information has been removed to protect user privacy. The content categories include identity, technology, society, economy, opinion, promotion, politics, spam, and others; the toxicity levels are divided into 5 tiers ranging from safe to malicious. This dataset is applicable to tasks such as social network analysis, content classification, and toxicity detection. The total size of the dataset is 44,995,825 bytes, and the download size is 26,389,457 bytes.
创建时间:
2026-02-02
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能社交网络研究领域,Moltbook数据集的构建体现了对新兴数字社会空间的系统性观察。该数据集通过爬取Moltbook平台上的公开内容,收集了超过4.4万条帖文和1.2万个社区板块的原始数据。随后,研究团队采用GPT-5.2模型对每一条帖文进行了精细标注,依据预先定义的分类体系,为内容划分了九个主题类别,并评估了五个级别的毒性程度。整个构建过程注重数据的代表性与标注的一致性,为分析智能体社交行为提供了结构化的基础。
特点
Moltbook数据集的核心特征在于其多维度的标注体系与丰富的元数据结构。数据集不仅包含帖文的原始内容与互动数据,如投票数、评论数和发布时间,还深度标注了每篇内容所属的主题领域,涵盖身份认知、技术讨论、社会交往等多个维度。尤为突出的是,数据集引入了细致的毒性分级标注,从安全对话到恶意内容共分五级,为研究在线社区的言论安全与交互质量提供了量化依据。这种结合内容分类与安全评估的双重标注框架,使该数据集在智能体社交网络研究中具有独特的分析价值。
使用方法
该数据集适用于计算社会科学与人工智能行为学的研究场景。研究者可通过HuggingFace平台直接加载数据集,利用其提供的两个配置——posts和submolts——分别分析帖文内容与社区板块的属性和动态。在具体应用中,学者可依据主题标签和毒性级别进行数据筛选,开展如社区话题演化、毒性言论传播模式或智能体交互特征等方面的实证研究。数据集中保留的元数据字段,如投票数、订阅者数量和时间戳,支持时间序列分析与网络关系建模,为深入理解自主智能体构成的社交生态提供了可靠的数据基础。
背景与挑战
背景概述
Moltbook数据集由Yukun Jiang、Yage Zhang、Xinyue Shen、Michael Backes和Yang Zhang等研究人员于2026年构建并发布,旨在对新兴的智能体社交网络Moltbook进行首次系统性观察与分析。该数据集的核心研究问题聚焦于理解自主智能体在去中心化社交平台上的互动模式、内容生成特性及其潜在的社会影响。通过采集超过4.4万条经过GPT-5.2标注的帖子和1.2万个子社区数据,并引入九种内容类别与五级毒性水平的精细标注体系,该工作为计算社会科学、人工智能伦理及多智能体系统研究提供了宝贵的实证基础,推动了人机混合社交环境生态研究的深化。
当前挑战
在领域层面,Moltbook数据集致力于应对智能体社交网络中内容理解与安全评估的复杂挑战,包括对非人类生成内容的语义分类、毒性言论的多维度量化以及新兴社交行为模式的识别。构建过程中的挑战主要体现在数据采集与标注的复杂性上:一方面,需从动态演化的去中心化平台中高效抓取并清洗大规模异构数据,同时规避隐私泄露风险;另一方面,依赖先进大语言模型进行自动化标注时,必须确保类别定义(如身份反思、技术交流、观点表达等)的准确性与一致性,并处理模糊内容与跨类别帖子的边界划分问题。
常用场景
经典使用场景
在人工智能代理社交网络的研究领域,Moltbook数据集为探索代理间的交互行为提供了丰富的实证基础。该数据集通过标注超过四万条帖子的内容类别与毒性等级,常被用于分析代理在身份认同、技术交流、社交互动等多维度下的表达模式,为理解代理社会网络的结构与动态演化奠定了数据支撑。
衍生相关工作
围绕Moltbook数据集,已衍生出多项经典研究工作,例如对代理社交网络拓扑结构的分析、基于内容类别的代理角色建模,以及毒性检测算法的优化。这些工作不仅深化了对代理社会行为的理解,还为后续研究提供了方法论参考,推动了人工智能与社会计算领域的交叉创新。
数据集最近研究
最新研究方向
在人工智能与社交网络交叉领域,Moltbook数据集凭借其针对AI代理社交平台的结构化标注,已成为探索智能体社会行为与内容治理的前沿工具。当前研究聚焦于利用其细粒度的内容分类与毒性级别标签,深入分析AI代理在模拟社交环境中的互动模式、身份构建与伦理风险。热点议题紧密关联生成式AI的规模化部署与自主代理的涌现行为,学者们借助该数据集评估多智能体系统中的信息传播机制、毒性内容演化路径以及潜在的操纵策略,为构建安全、可控的AI社交生态提供实证基础。这一工作不仅推动了人机混合社交网络的理论建模,也为平台内容审核与AI对齐策略的设计带来了关键启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作