five

Skool scraper

收藏
RapidAPI2026-05-17 更新2026-05-18 收录
下载链接:
https://rapidapi.com/lado93/api/skool-scraper
下载链接
链接失效反馈
官方服务:
资源简介:
Export any Skool classroom you have access to as a clean Markdown + JSON bundle. Built for LLMs, RAG, archiving, and personal notes.
创建时间:
2026-05-17
原始信息汇总

数据集概述:Skool Scraper

Skool Scraper 是一个用于导出 Skool 课堂内容的 API,可将你拥有访问权限的 Skool 课堂导出为结构化的 Markdown 和 JSON 数据包,特别适用于大型语言模型(LLM)、RAG(检索增强生成)管道、知识归档和个人笔记。

核心功能

  • 导出格式:导出为干净的 Markdown(.md) 和结构化 JSON(.json) 文件。
  • 数据打包:导出结果为 ZIP 压缩包,内部按“课程 → 章节 → 课时”建立层级文件夹结构。
  • 图像处理:自动下载图像并重新链接为相对路径,确保离线可读。
  • 链接解析:课时之间的内部引用链接会被重写为相对路径。
  • 清单文件:ZIP 根目录包含 manifest.json,无需解压即可查看导出内容概览。
  • 异步处理:支持异步作业,可处理200+课时的课程而不会超时。
  • 自动恢复:能自动应对 Skool 的短暂错误(如403状态码、网络波动、构建ID轮换),具有内置的指数退避重试机制。
  • 无状态设计:你的认证令牌仅在作业生命周期内保留于内存,作业完成后即被丢弃。

用例

应用场景 说明
LLM / RAG 管道 将 Markdown 文件索引到向量数据库中
个人 AI 辅导 对自己购买的课程向 AI 提问
课程归档 在访问权限过期前备份课程
笔记迁移 导入 Obsidian、Notion、Logseq、Roam等工具
离线学习 无需网络即可阅读课程
全文搜索 对整个课堂内容进行 grep 搜索
内容分析 对课时文本进行 NLP 或主题建模

技术接口

API 提供四个端点:

方法 路径 目的
GET /health 健康检查
POST /scrape 发起课堂导出任务
GET /jobs/{job_id}/status 查询任务状态
GET /jobs/{job_id}/download 下载导出的 ZIP 文件

使用流程

  1. 前置条件:需要一个 Skool 账户,并拥有目标课堂的活跃会员资格;需要从浏览器 DevTools 中获取 auth_token cookie。
  2. 发起任务:向 /scrape 端点发送 POST 请求,提供 group-name(课堂组名)和 skool-auth-token(认证令牌)。
  3. 轮询状态:通过 /jobs/{job_id}/status 轮询任务状态,直到状态变为 doneerror
  4. 下载结果:状态为 done 时,通过 /jobs/{job_id}/download 下载 ZIP 文件。

导出数据内容

ZIP 包内包含:

  • 层级文件夹结构:按课程 → 章节 → 课时组织。
  • Markdown 文件:每个课时对应一个 .md 文件,内容可读性强。
  • JSON 文件:每个课时对应一个 .json 文件,包含标题、模块ID、文本、图像链接、原始URL等元数据。
  • 图像文件夹:每个章节下的 images/ 文件夹存放所有下载的图像。
  • manifest.json:导出清单,包含课堂名称、导出时间、课程列表及各课程下的课时数量。

注意事项

  • 认证令牌安全auth_token 等同于 Skool 账户密码,需妥善保管,切勿泄露。
  • 作业保留时间:完成的作业及其 ZIP 文件将在 24 小时后被删除,请及时下载。
  • 轮询间隔:建议每 10–30 秒轮询一次任务状态,过于频繁会消耗 API 配额。
  • 错误处理:API 返回标准 HTTP 状态码(如 400、403、404、429、500),作业级别的错误可通过 jobError 字段查看具体原因(如认证过期、组名错误、被限流等)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作