five

Clean Article Text Extractor API

收藏
RapidAPI2026-01-08 更新2026-01-10 收录
下载链接:
https://rapidapi.com/venadad/api/clean-article-text-extractor-api
下载链接
链接失效反馈
官方服务:
资源简介:
Extract clean article title, text content, and meta info from any public URL. Simple PHP API. No Composer, no setup.
创建时间:
2026-01-08
原始信息汇总

Clean Article Text Extractor API 数据集概述

基本信息

  • API名称: Clean Article Text Extractor API
  • 类别: Text Analysis
  • 提供者: srdjanjovanovic74
  • 订阅者数量: 1
  • 流行度评分: 8.5 Popularity
  • 服务等级: 100% Service Level
  • 延迟: 2095ms Latency
  • 测试完成度: 42% Test

功能描述

这是一个基于PHP的轻量级、可靠的API,用于从任何公开网站URL中提取干净的正文内容。它通过解析网页HTML并过滤掉页眉、页脚、广告和菜单等非必要元素来提取文章的主要内容。

核心特性

  • 无依赖: 纯PHP实现,无需Composer或第三方库,适合共享主机和轻量级项目。
  • CORS支持: 已启用CORS并针对前端集成进行了优化。
  • 即时工作: 无需安装,无需设置。

请求与响应

  • 支持方法: GET
  • 端点: /extract
  • 必需查询参数:
    • 名称: url
    • 类型: string
    • 描述: 要提取文章内容的网页公开URL。

示例请求 (GET)

GET https://your-rapidapi-subdomain.rapidapi.dev/extract?url=https://blog.jetbrains.com/teamcity/2025/12v1/pipelines-sunset/

响应结构 (JSON)

API返回结构化的JSON响应,包含以下字段:

  • success: 请求成功状态。
  • data: 包含提取内容的对象。
    • title: 文章标题。
    • text: 文章内容的纯文本版本。
    • content: 文章内容的HTML版本(用于渲染或格式化)。
    • metadata: 元数据(如可用)。
      • image: 图片。
      • excerpt: 摘要。
      • site_name: 网站名称。
    • source_url: 原始URL。
    • word_count: 提取内容的近似字数。

定价计划

  • BASIC: $0.00 / 月
  • PRO: $4.99 / 月
  • ULTRA: $14.99 / 月
  • MEGA: $39.99 / 月

适用场景

  • SEO内容工具
  • 文章摘要生成器
  • “稍后阅读”应用
  • AI内容处理管道
  • 内容分析
  • 新闻通讯自动化
  • 文本分类或翻译预处理

测试与支持

  • 支持测试的网站示例:Wikipedia, BBC, TechCrunch, Medium 等。
  • 开发者提示: 部分网站可能阻止自动抓取,建议在生产使用前测试URL。
  • 支持: 可通过RapidAPI支持联系开发者或提交问题。

未来计划 (可选功能)

  • POST支持(发送JSON而非查询字符串)
  • AI驱动的摘要功能
  • 批量模式(多URL处理)
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该API工具可从任意公开URL中提取清洗后的文章标题、正文及元数据,采用PHP接口且无需Composer或复杂配置即可使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作