Clean Article Text Extractor API

收藏

RapidAPI2026-01-08 更新2026-01-10 收录

下载链接：

https://rapidapi.com/venadad/api/clean-article-text-extractor-api

下载链接

链接失效反馈

官方服务：

资源简介：

Extract clean article title, text content, and meta info from any public URL. Simple PHP API. No Composer, no setup.

创建时间：

2026-01-08

原始信息汇总

Clean Article Text Extractor API 数据集概述

基本信息

API名称: Clean Article Text Extractor API
类别: Text Analysis
提供者: srdjanjovanovic74
订阅者数量: 1
流行度评分: 8.5 Popularity
服务等级: 100% Service Level
延迟: 2095ms Latency
测试完成度: 42% Test

功能描述

这是一个基于PHP的轻量级、可靠的API，用于从任何公开网站URL中提取干净的正文内容。它通过解析网页HTML并过滤掉页眉、页脚、广告和菜单等非必要元素来提取文章的主要内容。

核心特性

无依赖: 纯PHP实现，无需Composer或第三方库，适合共享主机和轻量级项目。
CORS支持: 已启用CORS并针对前端集成进行了优化。
即时工作: 无需安装，无需设置。

请求与响应

支持方法: GET
端点: /extract
必需查询参数:
- 名称: url
- 类型: string
- 描述: 要提取文章内容的网页公开URL。

示例请求 (GET)

GET https://your-rapidapi-subdomain.rapidapi.dev/extract?url=https://blog.jetbrains.com/teamcity/2025/12v1/pipelines-sunset/

响应结构 (JSON)

API返回结构化的JSON响应，包含以下字段：

success: 请求成功状态。
data: 包含提取内容的对象。
- title: 文章标题。
- text: 文章内容的纯文本版本。
- content: 文章内容的HTML版本（用于渲染或格式化）。
- metadata: 元数据（如可用）。
  - image: 图片。
  - excerpt: 摘要。
  - site_name: 网站名称。
- source_url: 原始URL。
- word_count: 提取内容的近似字数。

定价计划

BASIC: $0.00 / 月
PRO: $4.99 / 月
ULTRA: $14.99 / 月
MEGA: $39.99 / 月

适用场景

SEO内容工具
文章摘要生成器
“稍后阅读”应用
AI内容处理管道
内容分析
新闻通讯自动化
文本分类或翻译预处理

测试与支持

支持测试的网站示例：Wikipedia, BBC, TechCrunch, Medium 等。
开发者提示: 部分网站可能阻止自动抓取，建议在生产使用前测试URL。
支持: 可通过RapidAPI支持联系开发者或提交问题。

未来计划 (可选功能)

POST支持（发送JSON而非查询字符串）
AI驱动的摘要功能
批量模式（多URL处理）

搜集汇总

数据集介绍

main_image_url

背景与挑战

背景概述

该API工具可从任意公开URL中提取清洗后的文章标题、正文及元数据，采用PHP接口且无需Composer或复杂配置即可使用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作