five

DocForge

收藏
RapidAPI2026-03-29 更新2026-03-30 收录
下载链接:
https://rapidapi.com/wtsng85/api/docforge1
下载链接
链接失效反馈
官方服务:
资源简介:
Complete PDF processing API — generate PDFs from HTML/templates, merge, split, encrypt, and extract text/tables. Built on WeasyPrint for pixel-perfect rendering.
创建时间:
2026-03-29
原始信息汇总

DocForge 数据集概述

数据集基本信息

  • 数据集名称: DocForge
  • 类别: Commerce
  • 提供者: Dave Sng
  • 订阅者数量: 1
  • API版本: v1 (current)

定价计划

  • BASIC: $0.00 / 月
  • PRO: $9.99 / 月
  • ULTRA: $29.99 / 月
  • MEGA: $99.99 / 月

API 核心描述

DocForge 是一个全面的 PDF 处理 API,涵盖 PDF 生命周期的每个阶段。它能够从 HTML/CSS 或 Jinja2 模板生成精美的 PDF,操作现有文档(合并、拆分、加密),并提取结构化数据(文本和表格)。该 API 基于 WeasyPrint 实现像素级完美的 CSS 渲染,并基于 pdfplumber 实现精确的数据提取。所有端点均返回即时结果,并附带使用情况跟踪标头。

端点功能详述

1. HTML 转 PDF

  • 端点: POST /v1/pdf/from-html
  • 功能: 将原始 HTML 和 CSS 转换为样式化的 PDF 文档。
  • 主要参数:
    • html: 要转换的 HTML 内容(必需)
    • css: CSS 样式表
    • page_size: 页面尺寸(默认 A4)
    • orientation: 方向(默认 portrait)
    • margin_mm: 页边距(mm)
  • 响应: 二进制 PDF 文件 (application/pdf)

2. 模板转 PDF

  • 端点: POST /v1/pdf/from-template
  • 功能: 使用动态数据渲染 Jinja2 HTML 模板,然后转换为 PDF。适用于发票、报告和证书。
  • 主要参数:
    • template: Jinja2 HTML 模板(必需,最多 500K 字符)
    • data: 注入模板的 JSON 数据(必需)
    • css: CSS 样式表
    • page_size: 页面尺寸
    • orientation: 方向
  • 响应: 二进制 PDF 文件

3. 合并 PDF

  • 端点: POST /v1/pdf/merge
  • 功能: 将多个 PDF 文件合并为单个文档。
  • 内容类型: multipart/form-data
  • 主要参数:
    • files: 要合并的 PDF 文件数组(必需,2-20 个文件)
  • 响应: 合并后的 PDF

4. 拆分 PDF

  • 端点: POST /v1/pdf/split
  • 功能: 从 PDF 文档中提取特定页面。
  • 内容类型: multipart/form-data
  • 主要参数:
    • file: 源 PDF 文件(必需)
    • pages: 页面范围字符串(必需,例如 "1-3,5,7-9",1-起始索引)
  • 响应: 仅包含提取页面的 PDF

5. 加密 / 解密 PDF

  • 端点: POST /v1/pdf/encrypt
  • 功能: 为 PDF 添加或移除密码保护。
  • 内容类型: multipart/form-data
  • 主要参数:
    • file: PDF 文件(必需)
    • password: 密码(必需,1-256 字符)
    • action: 操作(默认 encrypt,可选 encrypt 或 decrypt)
  • 响应: 受保护或未受保护的 PDF

6. PDF 元数据

  • 端点: POST /v1/pdf/metadata
  • 功能: 读取或更新 PDF 元数据(标题、作者、主题、关键词)。
  • 内容类型: multipart/form-data
  • 主要参数:
    • file: PDF 文件(必需)
    • title: 设置新标题
    • author: 设置新作者
    • subject: 设置新主题
    • keywords: 设置新关键词
  • 响应模式:
    • 读取模式(不提供更新字段): 返回 JSON 格式的元数据
    • 更新模式(提供任何字段): 返回更新后的 PDF

7. 提取文本

  • 端点: POST /v1/pdf/extract-text
  • 功能: 从 PDF 文档中提取所有文本内容。
  • 内容类型: multipart/form-data
  • 主要参数:
    • file: 要提取文本的 PDF 文件(必需)
  • 响应: JSON 格式,包含页数、提取的文本内容和字数统计。

8. 提取表格

  • 端点: POST /v1/pdf/extract-tables
  • 功能: 从 PDF 中提取表格数据为结构化数组。
  • 内容类型: multipart/form-data
  • 主要参数:
    • file: 要提取表格的 PDF 文件(必需)
  • 响应: JSON 格式,包含页数、表格数组和表格数量。

错误处理

所有错误均返回 JSON 格式响应,包含 successerrordetail 字段。部分错误代码与描述:

  • 400: too_few_files - 合并至少需要 2 个文件
  • 400: too_many_files - 每次合并最多 20 个文件
  • 400: invalid_action - 加密操作必须为 "encrypt" 或 "decrypt"
  • 422: validation_error - 请求参数无效
  • 500: pdf_error - PDF 处理失败

响应标头

  • X-Request-ID: 唯一的 8 字符请求标识符
  • X-API-Version: 当前 API 版本

使用案例

  • 发票生成 - 将包含动态数据的模板渲染为专业的 PDF
  • 文档管理 - 合并、拆分和加密 PDF 文件
  • 数据提取 - 从 PDF 报告中提取文本和表格
  • 报告自动化 - 将 HTML 仪表板转换为 PDF
  • 元数据管理 - 以编程方式读取或更新 PDF 属性
  • 合规性 - 为审计和合规工作流程提取文本
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DocForge是一个基于WeasyPrint的PDF处理API工具,支持HTML/模板转PDF、文档合并拆分、加密及文本表格提取等功能,可实现精准渲染。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作