Sutra: The Largest Structured Corpus of Multi-Agent Systems Research
收藏github2026-02-17 更新2026-02-18 收录
下载链接:
https://github.com/balajivis/sutra-mas
下载链接
链接失效反馈官方服务:
资源简介:
Sutra是迄今为止最大的结构化多智能体系统研究语料库,包含36,299篇论文,其中17,969篇进行了深度分析。每篇论文都包含协调模式、理论基础、经典概念映射、UMAP嵌入和簇分配等结构化元数据。该语料库跨越了30年,从经典多智能体系统(1980-2010)到现代LLM智能体(2023+)。
Sutra is the largest structured research corpus on multi-agent systems to date, containing 36,299 papers, with 17,969 of them subjected to in-depth analysis. Each paper includes structured metadata such as coordination patterns, theoretical foundations, classic concept mappings, UMAP embeddings, and cluster assignments. Spanning 30 years, this corpus ranges from classic multi-agent systems (1980–2010) to modern LLM Agents (2023+).
创建时间:
2026-02-15
原始信息汇总
Sutra:多智能体系统研究最大结构化语料库
数据集概述
Sutra 是迄今为止规模最大的多智能体系统(MAS)研究结构化语料库,旨在连接跨越30年的经典MAS研究(1980-2010)与当前大语言模型(LLM)智能体研究(2023+)。该语料库通过一个8智能体LLM流水线处理,为每篇论文提取协调模式、理论基础、经典概念映射、UMAP嵌入和聚类分配。
核心数据规模
- 收集论文总数:36,299篇
- 深度分析论文数:17,969篇
- 聚类数量:16个
- 引用图边数:约100,000+条有向边
数据文件与内容
主要数据文件
full-paper-list.csv- 记录数:36,299
- 描述:从ArXiv、OpenAlex、DBLP、Crossref收集的完整候选论文列表,包含来源、年份、会议/期刊、外部ID以及是否进入分析语料库。
corpus.jsonl- 记录数:17,969
- 描述:分析后的语料库,每篇论文一个JSON对象,包含标题、摘要、年份、引用数、协调模式、理论基础、引用的经典概念、缺失的经典概念、聚类分配、UMAP坐标和Rosetta Stone条目。
corpus-lite.csv- 记录数:17,969
- 描述:轻量级视图,包含ID、标题、年份、聚类、模式、引用数、UMAP位置。
citation-edges.csv- 记录数:~100K+
- 描述:语料库论文之间的有向引用图。
clusters.csv- 记录数:~18K
- 描述:每篇论文的聚类分配和2D UMAP坐标。
cluster-meta.json- 记录数:16
- 描述:聚类标签、描述、论文数量、核心概念。
reinvention-map.csv- 记录数:~500+
- 描述:明确的经典到现代论文链接,包含重叠分数。
lost-canaries.json- 记录数:~20-30
- 描述:具有高引用量但现代引用几乎为零的经典论文。
reading-triples.json- 记录数:48
- 描述:每个聚类的3篇入门论文(里程碑、核心、综述)。
corpus-stats.json- 记录数:1
- 描述:汇总统计信息。
16支柱分类法
语料库被组织成代表MAS研究中主要协调机制的16个聚类。每个支柱包含一篇经典里程碑论文和一篇现代入门论文。
| # | 支柱 | 论文数 | 经典里程碑 | 现代入门点 |
|---|---|---|---|---|
| 0 | 共享媒介协调 | 1,096 | Blackboard Systems (Nii 1986) | LbMAS: Blackboard for LLM Agents (2025) |
| 1 | 合同网与任务分配 | 945 | The Contract Net Protocol (Smith 1980) | AutoGen: Next-Gen LLM Applications (Wu et al. 2023) |
| 2 | 组织设计与团队结构 | 2,167 | Survey of Multi-Agent Organizational Paradigms (Horling & Lesser 2004) | MetaGPT: Multi-Agent Collaboration (Hong et al. 2023) |
| 3 | 分布式规划与团队协作 | 1,798 | Collaborative Plans for Complex Group Action (Grosz & Kraus 1996) | ChatDev: Communicative Agents for Software (Qian et al. 2023) |
| 4 | 智能体通信语言与协议 | 281 | KQML: Agent Communication Language (Finin et al. 1994) | Model Context Protocol (Anthropic 2025) |
| 5 | 治理、规范与AI安全 | 370 | Governing the Commons (Ostrom 1990) | AgentSpec: Runtime Constraints (2025) |
| 6 | 协商、论证与经济范式 | 1,555 | Rules of Encounter (Rosenschein & Zlotkin 1994) | Human-Level Play in Diplomacy (Meta FAIR 2022) |
| 7 | BDI与认知智能体架构 | 1,970 | BDI Agents: From Theory to Practice (Rao & Georgeff 1995) | NatBDI: Natural-Language BDI (2024) |
| 8 | 人机交互与人在回路 | 337 | Types and Levels of Human Interaction with Automation (Parasuraman et al. 2000) | Building Effective Agents (Anthropic 2025) |
| 9 | 信任、声誉与社会机制 | 288 | Review on Computational Trust and Reputation (Sabater & Sierra 2005) | TrustLLM: Trustworthiness in LLMs (2024) |
| 10 | 多智能体工程 | 2,411 | The Gaia Methodology (Wooldridge et al. 2000) | LangGraph: Resilient Language Agents (LangChain 2024) |
| 11 | 多智能体机器人与具身团队 | 929 | RoboCup: The Robot World Cup (Kitano et al. 1997) | LLM2Swarm: Robot Swarms that Reason and Collaborate (2024) |
| 12 | 评估基准与失败分析 | 955 | A Multi-Agent Systems Turing Challenge (2013) | Why Do Multi-Agent LLM Systems Fail? (Cemri et al. 2025) |
| 13 | 记忆与上下文管理 | 107 | --- | MemGPT: LLMs as Operating Systems (Packer et al. 2023) |
| 14 | 学习与适应 | 2,386 | Ant System: Cooperating Agents (Dorigo et al. 1996) | Multiagent Finetuning: Self Improvement (2025) |
| 15 | 建模与模拟人工社会 | 374 | Flocks, Herds and Schools (Reynolds 1987) | Generative Agents: Interactive Simulacra (Park et al. 2023) |
时代分布
语料库时间跨度为1948年至2026年。
| 时代 | 收集论文数 | 高相关性论文数 | 平均引用数 | 中位数引用数 |
|---|---|---|---|---|
| <1990 | 562 | 225 | 797 | 94 |
| 1990s | 2,788 | 1,884 | 125 | 30 |
| 2000s | 8,839 | 6,103 | 80 | 22 |
| 2010s | 9,407 | 3,541 | 64 | 14 |
| 2020--22 | 2,667 | 812 | 50 | 8 |
| 2023--24 | 3,853 | 1,588 | 54 | 3 |
| 2025+ | 7,261 | 3,574 | 115 | 2 |
| 总计 | 36,299 | 17,956 | 92 | 17 |
Rosetta Stone(概念映射)
经典MAS与现代LLM智能体系统之间的概念级映射。
| 经典概念 | 年份 | 现代再发明 | 状态 |
|---|---|---|---|
| Blackboard (Nii) | 1986 | LangGraph state, Redis shared context | Control shell lost |
| Contract Net (Smith) | 1980 | A2A task lifecycle, agent dispatch | Partial |
| BDI (Rao & Georgeff) | 1995 | System prompt + RAG + CoT | Partial |
| FIPA ACL Performatives | 2000 | JSON schemas, A2A Parts, MCP | Partial |
| Holonic Organization (Horling) | 2004 | Hierarchical agent teams | Partial |
| Stigmergy (Grasse) | 1959 | MetaGPT SOPs, document-driven workflows | Partial |
| Argumentation (Dung) | 1995 | Generator/Critic, structured debate | Partial |
| Joint Persistent Goals (Cohen & Levesque) | 1990 | (no equivalent) | GAP |
| Discourse Coherence (Grosz & Sidner) | 1986 | (no equivalent) | GAP |
| Supervision Trees (Erlang/OTP) | 1986 | (no equivalent) | GAP |
| Functionally Accurate Cooperation (Durfee) | 1987 | (no equivalent) | GAP |
实验框架结果
9种经典MAS协调模式 + 2种基线,在5个标准化基准上评估。包含58个可复现的实验结果。
| 模式 | 经典来源 | 分数 | 关键发现 |
|---|---|---|---|
| Blackboard V2 | Nii 1986 + LLM control shell | 95/100 | LLM控制层是突破点 |
| Supervisor | Anthropic 2025 | 80-88 | 可靠的层次化编排 |
| BDI | Rao & Georgeff 1995 | 75-85 | 信念-愿望-意图循环转化良好 |
| Generator/Critic | Google ADK 2025 | 75-85 | 带类型反馈的迭代优化 |
| Contract Net | Smith 1980 | 70-85 | 通过竞标的动态任务分配 |
| Debate | Du et al. 2023 | 70-82 | 结构化论证 |
| Stigmergy | Grasse 1959 | 65-80 | 通过共享文档的间接协调 |
| Blackboard V1 | Nii 1986 (static round-robin) | 62/100 | 上下文膨胀导致静态调度失效 |
| Joint Persistent Goals | Cohen & Levesque 1990 | 52/100 | 新的负面发现:LLM无法检测自身的认知失败 |
收集流水线
构建语料库的8智能体黑板系统。每个智能体使用FOR UPDATE SKIP LOCKED从共享的PostgreSQL工作空间读写,以确保安全并发。
| 智能体 | 目的 | LLM |
|---|---|---|
| Agent 1 | 从OpenAlex、Crossref、DBLP、CSV种子列表收集论文 | -- |
| Agent 2 | 相关性过滤(1-5分 + MAS分支分类) | GPT-5-mini |
| Agent 3b | 深度结构化分析(协调模式、理论基础、Rosetta条目) | GPT-5.1 |
| Agent 4 | 通过OpenAlex API丰富引用图 | -- |
| Agent 5 | 通过Papers with Code + GitHub发现代码 | -- |
| Agent 6 | 复现可行性评估 | -- |
| Agent 8 | 半监督聚类 + UMAP投影 | text-embedding-3-small |
| Agent 0 | 人类研究员——分类法设计、质量审查、锚点优化 | -- |
研究知识库
14个结构化研究文档(约200KB),形式化经典与现代MAS之间的桥梁。
| 文档 | 内容 |
|---|---|
cluster-guide.md |
完整的16聚类分类法及边界原理 |
why-mas-works.md |
基于失败分析的8个设计原则 |
theoretical-foundations.md |
每个MAS支柱的形式化处理 |
classical-mas-llm-bridge.md |
直接概念映射表 |
organizational-principles.md |
人类团队科学向智能体团队的转移 |
evolution-from-classics-to-mcp.md |
协议演进:KQML --> FIPA --> A2A --> MCP |
搜集汇总
数据集介绍
构建方式
在构建多智能体系统研究领域最大规模结构化语料库Sutra的过程中,研究团队采用了一种创新的八智能体流水线方法。该流程从多个权威学术数据库(如ArXiv、OpenAlex、DBLP和Crossref)中收集了36,299篇候选论文,随后通过智能体驱动的深度分析筛选出17,969篇与多智能体系统高度相关的文献。每篇入选论文均经过结构化元数据提取,包括协调模式、理论基础、经典概念映射以及UMAP嵌入向量,最终通过半监督聚类方法将整个语料库划分为16个具有明确学术意义的支柱类别。
特点
Sutra语料库的显著特征体现在其前所未有的规模与深度结构化组织。该数据集不仅涵盖了过去三十年间从经典多智能体系统到现代大语言模型智能体的完整演进脉络,更通过罗塞塔石碑映射机制建立了古典概念与现代实践之间的概念桥梁。语料库内置的约十万条引用关系网络与十六支柱分类体系,使得研究者能够精准定位特定协调模式的理论源流与发展轨迹。特别设计的迷失金丝雀算法还能自动识别那些被现代研究忽视的高影响力经典文献,为学术传承研究提供了量化依据。
使用方法
研究者可通过多种方式利用这一丰富语料库。静态数据文件允许直接加载JSONL格式的完整语料进行程序化查询,例如检索使用特定协调模式但未引用关键奠基文献的现代论文。实验框架模块提供了九种经典协调模式的标准化实现,支持在五个基准任务上复现比较不同架构的性能表现。对于希望扩展语料库的研究者,开源的数据收集流水线提供了从论文采集、相关性过滤到深度分析的完整可复现流程,其中智能体间通过共享数据库实现协同工作,展现了该研究提倡的协调基础设施理念。
背景与挑战
背景概述
Sutra数据集作为多智能体系统研究领域迄今规模最大的结构化语料库,由研究团队于2025年前后构建,旨在系统梳理跨越三十年的学术文献。该数据集汇集了从经典多智能体系统到现代大语言模型智能体演进过程中的核心知识脉络,通过整合36,299篇候选文献并深度解析其中17,969篇高相关性论文,构建了涵盖16类协调机制的完整分类体系。其核心研究问题聚焦于解决现代智能体系统因协调机制缺失而导致的高失败率困境,通过重建古典理论与当代实践之间的引证链条,为智能体可靠性研究提供了历史维度的结构化知识基础。该数据集的建立标志着多智能体系统研究从分散经验积累向系统化知识图谱的重要转变,对推动跨时代学术思想的传承与创新具有深远影响。
当前挑战
Sutra数据集所应对的核心领域挑战在于解决现代多智能体系统协调机制的理论断层问题。当前基于大语言模型的智能体系统虽具备强大的个体能力,却因缺乏成熟的协调协议而导致40-80%的任务失败率,这凸显了古典多智能体协调理论在现代语境下的重构需求。在构建过程中,研究团队面临文献筛选与标注的复杂性挑战,需要从海量学术文献中精准识别多智能体系统相关研究,并提取协调模式、理论根基等深层语义信息。同时,建立古典概念与现代实践之间的映射关系需克服术语演进与知识断层带来的标注困难,而构建半监督分类体系时还需平衡领域先验知识与数据驱动聚类之间的张力,确保16类协调机制分类既符合学术传统又涵盖前沿发展。
常用场景
经典使用场景
在多智能体系统研究领域,Sutra数据集为学者提供了跨越三十年的结构化文献资源,其经典使用场景在于系统性地探索协调机制的演进脉络。研究人员可借助该数据集中的16类聚类分类与协调模式标注,深入分析不同时代智能体协作范式的传承与创新,例如追溯黑板系统从古典理论到现代LLM智能体框架的复兴轨迹。这种基于大规模文献的结构化分析,能够揭示智能体协调技术发展的内在规律,为理论演进提供实证基础。
衍生相关工作
该数据集已催生一系列聚焦于古典协调机制现代复兴的研究工作。例如,基于其揭示的黑板控制壳关键作用,出现了如LbMAS等将古典黑板架构适配于LLM智能体的创新框架;在组织设计领域,MetaGPT等工作借鉴了古典团队结构理论以优化多智能体协作流程。此外,数据集中的“迷失金丝雀”检测算法与概念重叠评分机制,也启发了对学术传承中断现象的量化研究,推动了智能体系统领域的知识连续性建设。
数据集最近研究
最新研究方向
在人工智能领域,多智能体系统研究正经历一场深刻的范式复兴。Sutra数据集作为迄今规模最大的结构化多智能体研究语料库,其最新研究方向聚焦于弥合经典协调理论与现代大语言模型智能体系统之间的认知断层。通过构建包含16个支柱的分类体系与罗塞塔石碑概念映射,该数据集揭示了诸如黑板系统控制外壳、合同网协议等经典协调机制在提升智能体系统可靠性方面的巨大潜力。当前研究热点集中在对遗忘知识的系统性挖掘——通过失落金丝雀算法识别高引用经典文献在现代研究中的断层现象,并实证验证经典协调架构能够将多智能体系统错误率降低17.2倍。这一研究浪潮正在推动多智能体工程从单纯追求模型能力向重视协调基础设施设计的范式转变,为构建可靠的大规模智能体系统提供了历史维度上的理论锚点。
以上内容由遇见数据集搜集并总结生成



