The B2B SaaS Founder Corpus
收藏github2026-04-28 更新2026-05-12 收录
下载链接:
https://github.com/Starbuck245/saas-founder-corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个引用支持的、开源的知识库,记录了真实B2B SaaS公司的构建过程——什么方法有效、什么无效,以及原因。每个主张都有逐字引用的创始人语录、日期数字和命名反例。包含153个条目,涵盖公司案例研究、原子笔记、功能指南、阶段手册、框架综合、失败事后分析和基准表。
A citation-supported, open-source knowledge base that documents the build processes of real B2B SaaS companies — specifically which methodologies work, which do not, and the underlying reasons. Every claim is accompanied by verbatim founder quotations, dated numerical data, and named counterexamples. It includes 153 entries covering corporate case studies, atomic notes, feature guides, stage handbooks, framework syntheses, failure post-mortems, and benchmark tables.
创建时间:
2026-04-24
原始信息汇总
数据集概述:B2B SaaS 创始人语料库 (The B2B SaaS Founder Corpus)
该数据集是一个开源、引用驱动的知识库,专注于记录真实的B2B SaaS公司的建设历程,包括成功与失败的经验。其核心特点是每条主张都附有创始人原话、具体日期和数字,并提供反例,旨在提供比普通“创业建议”更具体、更可靠的信息。
核心特性
- 具体性 (Specific):包含来自S-1文件、创始人访谈的逐字引用,使用带有具体日期的数字(例如“1月到6月,ARR从1亿增长到5亿美元”),而非模糊的陈述。
- 引用驱动 (Citation-backed):每条主张都链接到主要信息来源,如S-1文件、20VC播客、Lennys Newsletter、First Round Review、Sacra、创始人年度信函等。
- 包含反例 (Counter-example-aware):每条记录都包含“此模式适用的情况”和“此模式不适用的情况”部分,避免盲目模仿。
- 坦诚面对失败 (Honest about failure):包含7个专门的失败案例分析(如Quibi、Fast、WeWork等),而非只展示成功案例。
数据集内容
数据集共包含 153 个条目,按以下类别组织:
| 类别 | 数量 | 示例 |
|---|---|---|
| 公司案例研究 | 25 | Figma, Stripe, Linear, Notion, Snowflake, Datadog, HubSpot, Atlassian, Gong, Ramp, Cursor, Harvey, Perplexity, Wiz, Vanta, Canva, Vercel, Shopify, Toast, MongoDB, HashiCorp, Retool, Rippling, Clay, Gamma |
| 原子笔记 | 108 | 每个文件包含一个具体主张,如定价策略、估值轨迹、创始人契合模式等 |
| 功能指南 (Function guides) | ~8 | 涵盖GTM-PLG, GTM-Sales-Led, 定价与打包, 融资, 早期团队招聘, 创始人主导的增长等 |
| 阶段手册 (Stage playbooks) | 4 | 种子前→种子轮, 种子轮→A轮, A轮→B轮, 规模化 |
| 框架综述 (Framework syntheses) | 4 | “显然很棒” (Dunford), “玩得更大” (Ramadan), MEDDPICC (McMahon), “跨越鸿沟” (Moore) |
| 失败案例分析 | 7 | Quibi, Fast, WeWork, Theranos, Jawbone, Clubhouse, Homejoy |
| 基准表 (Benchmark tables) | 2 | SaaS指标基准, 按阶段的定价 |
数据样本与洞察
该语料库记录了普通创业内容无法提供的具体洞察,例如:
- Figma 在七年前保持 每名编辑每月12美元 的价格,顶级套餐(Org + Enterprise)在2025年Q1达到了 70%的收入,而基础价格并未上涨。
- Linear 以约 3.5万美元的总营销支出 达到了 12.5亿美元的估值,且C轮时已盈利。
- Ramp 在20个月内从 76.5亿美元增长到320亿美元估值,将融资视为价格发现而非资本形成。
- Cursor 在3年内达到 20亿美元ARR,成为史上增长最快的B2B SaaS公司。
- Quibi 上市前融资17.5亿美元,仅有 72,000名付费用户,6个月后倒闭。
如何使用
浏览方式
- 浏览器查看(推荐):克隆或下载仓库后,双击
index.html文件,即可在浏览器中以暗色主题、侧边栏导航和全文搜索功能进行浏览。 - Obsidian 查看:在Obsidian中打开文件夹,可原生支持
[[wikilink]]跳转、图谱视图和反向链接。 - 文本编辑器:所有文件均为纯Markdown格式。
与AI集成
- Claude Code 集成:仓库附带一个Claude Code技能文件(
SKILL.md)。安装后,Claude Code可根据该语料库回答B2B SaaS相关问题,并提供引用。- 一键安装命令:
git clone https://github.com/Starbuck245/saas-founder-corpus.git ~/.claude/skills/saas-corpus - 更新命令:
cd ~/.claude/skills/saas-corpus && git pull
- 一键安装命令:
- 浏览器/编辑器:无需AI工具,直接浏览Markdown文件即可。
数据结构
仓库根目录结构如下:
README.md:本文件MANIFEST.md:所有153个条目的索引index.html:静态浏览器导航文件notes/:108个原子笔记companies/:25个公司案例研究functions/:9个功能指南stages/:4个阶段手册frameworks/:4个框架综述failures/:7个失败案例分析benchmarks/:2个基准表sources/:所有引用的URL注册表templates/:新条目的模板build.py:用于重新生成index.html的脚本
原子笔记格式
每个原子笔记遵循以下严格结构,包含标题(单句主张)、证据(逐字引用、具体数字)、背景、成效分析、反例、适用条件以及相关链接。
贡献
鼓励贡献新的公司案例、失败案例、书籍综述和基准表。贡献需遵循模板格式,并确保每条新笔记包含逐字引用、带日期的数字和命名的反例。PR需通过更新 MANIFEST.md 并运行 python3 build.py 来更新索引。
法律与许可
- 许可证:遵循 MIT 许可协议,允许自由使用,鼓励署名但非必须。
- 免责声明:本语料库仅用于教育和分析目的。引用的原始内容遵循合理使用原则。项目不构成任何法律、金融或商业建议。
- 修正与删除:如发现错误或引用不妥,可通过GitHub Issues提出。
搜集汇总
数据集介绍

构建方式
在商业软件即服务(B2B SaaS)领域,关于企业实际构建过程的可靠知识常因泛泛而谈而失真。该数据集正是为解决这一痛点而生,通过系统性的方法构建了一个基于引用的开源知识库。其构建方式严谨且透明:每一条知识条目均源自一手原始资料,包括S-1上市文件、创始人深度访谈、知名行业博客及播客内容。数据集严格遵循统一的原子笔记格式,每一个论断都附带创始人的原话引用、标明日期的具体数据以及一个命名的反例,确保信息的可追溯性与真实性。此外,数据集还融入了对失败案例的诚实剖析,通过7篇详尽的复盘报告来平衡对成功的过度聚焦,从而构建出一个完整、客观的知识生态。
特点
该数据集的核心特质在于其前所未有的具体性与严谨性,彻底摒弃了空泛的创业建议。其首要特点是“引证驱动”,每一个观点都像科学论文一样链接回原始出处,杜绝了信息失真。其次,它引入了独创的“反例意识”,每项结论明确标注“此模式适用于/不适用于何种场景”,从而有效遏制了盲目模仿的风险。数据集内容结构化清晰,涵盖了153个条目的深度案例、原子笔记、功能指南及阶段攻略,横跨从概念验证到规模化增长的完整创业生命周期。尤为难得的是,它诚实地收录了包括Quibi、Theranos在内的7份失败复盘,打破了行业“唯成功论”的信息茧房。
使用方法
该数据集的设计充分考虑了研究者的不同使用场景,提供了极为便捷的访问方式。最直观的使用方法是克隆仓库后双击本地打开`index.html`文件,即可在浏览器中获得一个带有深色主题、侧边栏导航和全文搜索功能的交互式阅读界面,无需任何额外配置。对于习惯使用笔记软件的知识工作者,可直接在 Obsidian 中打开项目文件夹,利用原生支持的`[[维基链接]]`和图形化视图进行深入探索。而对于最前沿的工作流,数据集内置了Claude Code技能(Skill),用户只需一条命令即可将该数据集注入AI编程助手,从而能够直接向AI询问如“Figma如何定价企业版?”等专业问题,并获得基于该语料库的引证式回答,彻底避免了大模型常见的泛泛而谈。
背景与挑战
背景概述
在B2B SaaS领域,创始人往往深陷于零散的、缺乏实证的‘通用建议’泥潭中,难以甄别真正可复用的增长策略。为弥合这一鸿沟,该语料库由独立研究者于2025年发起构建,荟萃了Figma、Stripe、Linear等25家顶级公司案例、108条原子笔记及7份失败复盘,并辅以Citations-backed的原始出处(如S-1文件、播客访谈)与‘反例警示’机制。其核心研究命题在于系统提取‘实际如何构建B2B SaaS企业’的具体证据——涵盖定价杠杆、GTM策略、融资节奏等关键维度——并以此解构行业中的成功与失败模式,为后续研究奠定可追溯、可验证的知识基石。该资源已具备MIT开源许可,正逐步成为重组行业认知的重要参照。
当前挑战
领域层面,此类语料库直面两大棘手痛点:一是‘幸存者偏差’泛滥——多数公开内容仅聚焦成功故事,导致新兴企业盲目复制高光策略;二是‘知识颗粒度’匮乏——战术层面的‘dated numbers’(如具体月份的ARR跃迁)和‘verbatim quotes’长期缺失,难以支撑精细化决策。构建过程亦充满挑战:需调用WebSearch与WebFetch对海量一手源(S-1s、20VC等)进行高强度萃取,确保每项主张附有原始URL及访问日期;同时,设计‘when this pattern applies’与‘when it does NOT apply’的双向标注,以抵御Cargo-culting倾向,这要求创作者对反例持有极高的识别与整合能力。此外,维持153条条目的持续更新与社区协作,对信息时效性和质量控制构成持续压力。
常用场景
经典使用场景
在B2B SaaS创业研究领域,该语料库最经典的使用场景是作为实证研究的基础数据源。研究者通过其中的153个结构化条目(包括25家公司案例、108条原子笔记、7个失败案例回顾等),进行跨案例比较分析。例如,可以系统比较不同公司的定价策略演变——从Figma七年保持12美元/编辑者/月的基础定价到高级套餐贡献70%收入的案例,再到Linear以极低营销投入实现估值跃升的路径。该数据集特别注重对抗单一叙事,每个结论都附有适用范围和不适用条件的说明,有效避免了创业领域的「模板化」研究陷阱。
衍生相关工作
该数据集催生了多项衍生研究工作。首先,研究者基于其结构化原子笔记模板,发展出专门针对初创企业失败机制的定量分析框架,通过跨案例的失败后验分析归纳出7类典型死亡模式。其次,数据集中包含的4本书籍合成文档(如《跨越鸿沟》《Obviously Awesome》)被学者用于验证经典理论在现代B2B SaaS环境中的适用性。此外,基准表格中的SaaS指标基准数据已成为多家风投机构进行投资组合评估的参考标准。社区贡献者还基于该语料库开发了知识图谱可视化工具,可动态展示公司、阶段、功能之间的关联网络。
数据集最近研究
最新研究方向
在B2B SaaS领域,当前的前沿研究方向聚焦于解构成功企业的真实成长路径,摒弃泛化的创业建议,转而强调数据驱动的可验证洞察与失败案例的深度剖析。以The B2B SaaS Founder Corpus为代表的知识库,通过收录Figma长达七年维持低价策略、Linear以极低营销成本实现高估值、Ramp在20个月内估值翻四倍等具体案例,揭示了定价策略、销售模式与融资节奏对企业增长的深刻影响。该数据集特别关注反模式总结与失败归因,涵盖了Quibi、WeWork等七家公司的详尽失败剖析,直击行业普遍存在的成功叙事偏见。这种以原始引文、有日期数据和命名反例为基石的研究方法,不仅为创业者提供了规避风险的实证依据,更推动了B2B SaaS领域从经验主义向证据驱动的范式转变,对行业实践与学术研究均具有里程碑式的意义。
以上内容由遇见数据集搜集并总结生成



