Skool scraper
收藏RapidAPI2026-05-17 更新2026-05-18 收录
下载链接:
https://rapidapi.com/lado93/api/skool-scraper
下载链接
链接失效反馈官方服务:
资源简介:
Export any Skool classroom you have access to as a clean Markdown + JSON bundle. Built for LLMs, RAG, archiving, and personal notes.
创建时间:
2026-05-17
原始信息汇总
数据集概述:Skool Scraper
Skool Scraper 是一个用于导出 Skool 课堂内容的 API,可将你拥有访问权限的 Skool 课堂导出为结构化的 Markdown 和 JSON 数据包,特别适用于大型语言模型(LLM)、RAG(检索增强生成)管道、知识归档和个人笔记。
核心功能
- 导出格式:导出为干净的 Markdown(
.md) 和结构化 JSON(.json) 文件。 - 数据打包:导出结果为 ZIP 压缩包,内部按“课程 → 章节 → 课时”建立层级文件夹结构。
- 图像处理:自动下载图像并重新链接为相对路径,确保离线可读。
- 链接解析:课时之间的内部引用链接会被重写为相对路径。
- 清单文件:ZIP 根目录包含
manifest.json,无需解压即可查看导出内容概览。 - 异步处理:支持异步作业,可处理200+课时的课程而不会超时。
- 自动恢复:能自动应对 Skool 的短暂错误(如403状态码、网络波动、构建ID轮换),具有内置的指数退避重试机制。
- 无状态设计:你的认证令牌仅在作业生命周期内保留于内存,作业完成后即被丢弃。
用例
| 应用场景 | 说明 |
|---|---|
| LLM / RAG 管道 | 将 Markdown 文件索引到向量数据库中 |
| 个人 AI 辅导 | 对自己购买的课程向 AI 提问 |
| 课程归档 | 在访问权限过期前备份课程 |
| 笔记迁移 | 导入 Obsidian、Notion、Logseq、Roam等工具 |
| 离线学习 | 无需网络即可阅读课程 |
| 全文搜索 | 对整个课堂内容进行 grep 搜索 |
| 内容分析 | 对课时文本进行 NLP 或主题建模 |
技术接口
API 提供四个端点:
| 方法 | 路径 | 目的 |
|---|---|---|
| GET | /health |
健康检查 |
| POST | /scrape |
发起课堂导出任务 |
| GET | /jobs/{job_id}/status |
查询任务状态 |
| GET | /jobs/{job_id}/download |
下载导出的 ZIP 文件 |
使用流程
- 前置条件:需要一个 Skool 账户,并拥有目标课堂的活跃会员资格;需要从浏览器 DevTools 中获取
auth_tokencookie。 - 发起任务:向
/scrape端点发送 POST 请求,提供group-name(课堂组名)和skool-auth-token(认证令牌)。 - 轮询状态:通过
/jobs/{job_id}/status轮询任务状态,直到状态变为done或error。 - 下载结果:状态为
done时,通过/jobs/{job_id}/download下载 ZIP 文件。
导出数据内容
ZIP 包内包含:
- 层级文件夹结构:按课程 → 章节 → 课时组织。
- Markdown 文件:每个课时对应一个
.md文件,内容可读性强。 - JSON 文件:每个课时对应一个
.json文件,包含标题、模块ID、文本、图像链接、原始URL等元数据。 - 图像文件夹:每个章节下的
images/文件夹存放所有下载的图像。 manifest.json:导出清单,包含课堂名称、导出时间、课程列表及各课程下的课时数量。
注意事项
- 认证令牌安全:
auth_token等同于 Skool 账户密码,需妥善保管,切勿泄露。 - 作业保留时间:完成的作业及其 ZIP 文件将在 24 小时后被删除,请及时下载。
- 轮询间隔:建议每 10–30 秒轮询一次任务状态,过于频繁会消耗 API 配额。
- 错误处理:API 返回标准 HTTP 状态码(如 400、403、404、429、500),作业级别的错误可通过
jobError字段查看具体原因(如认证过期、组名错误、被限流等)。



