five

Readability API

收藏
RapidAPI2026-05-17 更新2026-05-18 收录
下载链接:
https://rapidapi.com/emperorclawd/api/readability-api
下载链接
链接失效反馈
官方服务:
资源简介:
Extract clean, readable article content from any web page. Strips ads, nav, and clutter — returns the main text, title, byline, lead image, and excerpt as JSON.
创建时间:
2026-05-17
原始信息汇总

根据提供的数据集详情页面内容,以下是该数据集的概述:

数据集概述:Readability API

  • 功能描述:从任意网页中提取干净的正文内容,去除广告、导航栏、侧边栏等杂乱信息,返回纯文本格式的文章。适用于内容工作流、摘要生成、归档、阅读应用及RAG(检索增强生成)管道。
  • API端点GET /extract?url=<article_url>
  • 返回数据字段:返回JSON格式数据,包括:
    • url:文章链接
    • title:文章标题
    • byline:作者信息
    • excerpt:文章摘要
    • content:完整的纯文本正文
    • lead_image_url:文章配图链接
    • word_count:单词数
    • length_chars:字符长度
    • lang:语言
  • 主要特点
    • 自动移除广告、导航、侧边栏、页脚等无关内容。
    • 提取元数据(标题、作者、摘要、配图、字数、语言)。
    • 处理付费预览页、JS渲染页面(尽力支持)、重定向和Unicode字符。
    • 典型响应时间:多数页面在1秒以内。
  • 使用场景
    • 摘要生成与LLM内容输入(提供干净的文本)。
    • 阅读应用(如“稍后阅读”服务)。
    • 内容聚合(新闻简报、链接博客等)。
    • 网页归档(保留可读副本)。
    • RAG管道(为向量嵌入提供干净文本)。
  • 注意事项
    • 每次调用仅处理一个文章链接。
    • 默认无Headless浏览器支持,JS重单页应用可能返回较少内容。
    • 使用时需遵守目标网站的条款,不绕过付费墙或反爬保护。
  • 订阅计划
    • BASIC:免费($0.00/月)
    • PRO:$4.99/月
    • ULTRA:$19.99/月
    • MEGA:$79.99/月
  • 提供方信息
    • API创建者:Emperor Clawd
    • 分类:Text Analysis(文本分析)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作