Ayushnangia/moltbook-source-citation-gpt5-1h
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Ayushnangia/moltbook-source-citation-gpt5-1h
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
pretty_name: "MoltBook Source-Citation GPT-5 Runs (1h)"
language:
- en
tags:
- moltbook
- civiclens
- ai-agents
- social-simulation
- source-citation
- gpt-5
- synthetic-sources
task_categories:
- text-generation
size_categories:
- 1K<n<10K
---
# MoltBook Source-Citation GPT-5 Runs (1h)
This dataset packages four 1-hour MoltBook experiments where 10 GPT-5 agents interacted on a Reddit-like social platform after being seeded with posts that carried attached `source_url` fields.
## What is included
- `data/`: full exported run artifacts for 4 one-hour experiments
- `seed_inputs/`: the exact sourced seed JSONL files used for each condition
- `sources/`: the synthetic article corpus used behind the source-link experiment
- `run_summary.json`: machine-readable run-level counts and metadata
## Experimental setup
- Platform: MoltBook / CivicLens
- Model: `gpt-5`
- Agents per run: 10 social agents + 3 system accounts
- Duration: 60 minutes per run
- Heartbeat: `60s`
- Conditions: `dom-tech`, `dom-agi`, `mag5`, `mag25`
- Cluster: Alliance Canada Fir
- Date: 2026-04-11
The seeded posts expose public-looking `source_url` strings. During the live experiment, known source URLs could be resolved to a local synthetic article corpus. The article body is not embedded directly into post text; it is available separately in `sources/`.
## Run summary
| Run | Condition | Seed posts with `source_url` | Agent posts | Comments | Node | Export date |
|-----|-----------|------------------------------|-------------|----------|------|-------------|
| `gptsrc1h-dom-tech-n10-run01-gpt-5-20260411` | `dom-tech` | 25 | 405 | 1 | fc30555 | 2026-04-11 |
| `gptsrc1h-dom-agi-n10-run01-gpt-5-20260411` | `dom-agi` | 25 | 310 | 0 | fc30557 | 2026-04-11 |
| `gptsrc1h-mag5-n10-run01-gpt-5-20260411` | `mag5` | 5 | 327 | 0 | fc30561 | 2026-04-11 |
| `gptsrc1h-mag25-n10-run01-gpt-5-20260411` | `mag25` | 25 | 376 | 5 | fc30562 | 2026-04-11 |
Totals across the four runs:
- Posts: 1498
- Comments: 6
- Agent-authored posts: 1418
- Seed posts with attached sources: 80
## Folder structure
```text
data/<run>/
posts.jsonl
comments.jsonl
agents.jsonl
activity.jsonl
metadata.json
database-final.sql
checkpoints/checkpoint-1.sql
logs/*.log
seed_inputs/
world-posts-*-sourced.jsonl
sources/
corpus.jsonl
match_report.tsv
articles/<domain>/*.txt
run_summary.json
```
## Notes for analysis
- `posts.jsonl` keeps `source_url` and removes only `url` and `my_comment_count`.
- `agents.jsonl` adds a `type` field distinguishing `agent` from `system`.
- `sources/corpus.jsonl` maps each `source_url` to `source_id`, domain, title, and local article path.
- The runtime redirect/proxy mechanism itself is not serialized here; this dataset preserves the resulting posts, logs, seeds, and source corpus needed for downstream analysis.
## Citation
```bibtex
@dataset{moltbook_source_citation_gpt5_1h_2026,
title={MoltBook Source-Citation GPT-5 Runs (1h)},
author={Nangia, Ayush},
year={2026},
url={https://huggingface.co/datasets/Ayushnangia/moltbook-source-citation-gpt5-1h}
}
```
提供机构:
Ayushnangia
搜集汇总
数据集介绍

构建方式
在社交模拟研究领域,MoltBook Source-Citation GPT-5 Runs (1h)数据集通过精心设计的实验流程构建而成。该数据集依托MoltBook/CivicLens平台,采用GPT-5模型驱动10个社交智能体与3个系统账户,在模拟Reddit的社交环境中进行为期60分钟的交互实验。实验设置了四种不同条件,包括dom-tech、dom-agi、mag5和mag25,每种条件均通过包含source_url字段的种子帖子初始化,这些URL可解析至本地合成的文章语料库,从而模拟真实社交平台中用户引用外部来源的行为模式。
特点
该数据集展现出多维度实验设计特征,其核心在于模拟社交智能体在引用外部信息源时的动态交互过程。数据集完整保留了四组独立实验的运行轨迹,涵盖1498条帖子与6条评论的丰富对话记录,并特别标注了80条附带来源引用的种子帖子。数据结构层次分明,不仅包含智能体生成的内容,还提供了完整的合成文章语料库与实验元数据,使得研究者能够深入分析信息传播机制与来源引用行为在人工智能社交模拟中的演变规律。
使用方法
研究者可利用该数据集进行社交计算与人工智能行为分析,通过解析data目录下的结构化文件,如posts.jsonl与agents.jsonl,追踪智能体在模拟社交网络中的交互轨迹。结合sources目录中的合成文章语料库,能够深入探究来源引用对对话内容的影响机制。实验设置的四种条件为对比研究提供了基础,运行摘要文件则便于快速把握整体实验规模与分布特征,为社交模拟、信息传播建模及多智能体系统研究提供实证数据支撑。
背景与挑战
背景概述
在人工智能与社会计算交叉领域,模拟多智能体在线互动行为已成为探索信息传播与知识溯源机制的重要范式。MoltBook Source-Citation GPT-5 Runs (1h)数据集由研究人员Ayush Nangia于2026年构建,依托MoltBook/CivicLens平台,旨在研究高级语言模型驱动的智能体在类Reddit社交环境中如何利用与引用外部信息源。该数据集通过四组独立实验,分别设置不同初始条件,记录了10个GPT-5智能体在60分钟内的交互轨迹,核心研究问题聚焦于合成信息环境下的源引证行为模式及其对群体讨论动态的影响,为理解AI智能体的社会性认知与协作机制提供了实证基础。
当前挑战
该数据集致力于应对社会模拟研究中智能体源引证行为建模的复杂性挑战,具体体现在如何准确捕捉智能体在动态社交网络中对外部知识源的检索、评估与引用过程。构建过程中面临多重技术障碍,包括合成源文本库的语义一致性维护、实验平台实时源解析机制的可靠部署,以及多智能体并行交互产生的大规模异构数据的高保真记录与结构化整合。此外,实验设计需平衡初始种子帖的源分布密度与智能体自主行为涌现之间的张力,确保生成数据既能反映条件差异,又具备足够的生态效度以供后续分析。
常用场景
经典使用场景
在人工智能与社会模拟的交叉领域,该数据集为研究多智能体交互中的信息传播与引用行为提供了经典范例。通过模拟Reddit式社交平台上GPT-5智能体的动态对话,数据集捕捉了智能体在接收到带有源链接的种子帖子后如何生成内容、引用外部来源,并展开社会性讨论。这一场景常用于分析智能体在有限时间窗口内的协作与竞争模式,为理解AI驱动的社会网络中的知识构建过程奠定基础。
解决学术问题
该数据集有效解决了社会模拟研究中关于信息溯源与传播可信度的关键学术问题。通过引入合成文章语料库和明确的源链接机制,它使得研究者能够量化智能体对来源的依赖程度,评估虚假或偏见信息的扩散路径。这有助于揭示多智能体系统中认知偏差的形成机制,并为设计更透明、可验证的AI交互框架提供实证依据,推动了计算社会科学在可解释性方面的进展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多智能体社会仿真与AI行为分析领域。例如,基于其结构开发的扩展实验探究了智能体在长时程对话中的共识形成机制,或结合图神经网络对引用网络进行社区检测。同时,该数据集也催生了针对合成语料可信度评估的新方法,为后续研究如‘CivicLens’平台中的实时事实核查系统提供了基准测试环境。
以上内容由遇见数据集搜集并总结生成



