RSS Feed Index
收藏github2025-09-20 更新2025-09-21 收录
下载链接:
https://github.com/lwindolf/rss-feed-index
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从百万网站爬取的RSS、Atom等新闻feed索引数据,以JSON格式存储,包含域名、feed标题、URL、类型、命名空间等字段信息
This dataset comprises news feed index data (e.g., RSS, Atom) crawled from millions of websites. It is stored in JSON format and includes fields such as domain name, feed title, URL, type, namespace and other related information.
创建时间:
2025-09-08
原始信息汇总
RSS Feed Index 数据集概述
数据集来源
- 数据来源:基于 majestic million websites 的新闻源(RSS、Atom 等)爬取结果
- 许可证:CC BY Attribution 3.0 Unported
数据集内容
- 数据格式:JSON(index.json)
- 数据字段:
- 域名(key)
- 源标题(n)
- 源描述(i)
- 源URL(u)
- 项目描述平均字符得分(t)
- 源类型(f):rss、atom、json
- 发现的命名空间/功能(ns)
- 最后更新时间戳(d)
- 文本字段均为 UTF-8 纯文本,可能需要转义
爬取方法
- 爬取脚本:datasets/majestic.sh >domains.txt
- 执行命令:npm run crawl
- 支持并行执行:parallel.sh 脚本
爬取伦理
- 遵守 robots.txt
- 仅在域根目录进行源发现,不进行遍历
- 最小化流量:
- 每月每个源最多 1 次更新/检查请求
- 几乎无重试
- 不在域上并行爬取
- 使用 Cloudflare 家庭过滤器(1.1.1.3 解析器)过滤恶意软件和成人内容域名
爬取影响
- 无源的站点:约 2 次请求
- 有源的站点:2 + 源数量(由
<link rel="alternate" ...>指定)次请求
爬虫用户代理
Mozilla/5.0 (compatible; rss-feed-index-bot/0.9; +https://github.com/lwindolf/rss-feed-index)
网站构建
- 部署准备:npm run build-www
- 本地测试:npx serve www
搜集汇总
数据集介绍

构建方式
在新闻资讯聚合领域,RSS Feed Index数据集通过系统化爬取Majestic Million权威榜单中的网站源构建而成。采用遵循robots.txt协议的伦理爬虫策略,仅对域名根目录进行单线程低频访问,每月最多触发一次更新请求,并依托Cloudflare家庭过滤器自动屏蔽恶意与成人内容,最终形成结构化JSON索引。
使用方法
研究者可通过执行majestic.sh生成域名列表,经npm安装依赖后运行crawl指令启动爬取流程。支持parallel.sh实现并行化采集,构建的index.json可直接用于新闻聚合算法训练或feed更新模式研究,配套的GitHub Pages站点提供实时数据验证环境。
背景与挑战
背景概述
RSS Feed Index数据集由开发者Lukas Windolf于2023年构建,专注于网络信息聚合领域。该数据集基于Majestic Million权威网站排名,通过自动化爬虫系统采集全球主流网站的RSS、Atom及JSON格式新闻源,采用CC BY 3.0开放许可协议。其核心价值在于构建了结构化网络内容订阅目录,为新闻推荐系统、信息流分析及语义网研究提供了基础数据支撑,显著推动了动态内容监测与信息传播模式研究的发展。
当前挑战
该数据集主要应对网络内容实时性管理的技术挑战,包括多格式Feed解析、跨平台内容编码统一及更新频率优化。构建过程中需克服大规模域名处理的工程难题,如遵守robots.txt协议、控制爬取频率以避免服务器负载,同时通过Cloudflare家庭过滤器排除不良内容。此外还需解决非结构化文本的字符评分计算与命名空间特征提取等关键技术问题。
常用场景
经典使用场景
在新闻信息聚合与内容挖掘领域,RSS Feed Index数据集通过系统化采集全球百万级网站的标准化新闻源,为研究者构建动态信息流分析模型提供了基础架构。其多维度元数据架构支持对新闻发布频率、内容特征及技术标准的量化研究,成为数字新闻生态系统中信息传播模式分析的基准数据源。
解决学术问题
该数据集有效解决了网络信息碎片化导致的学术研究障碍,为计算新闻学、信息传播动力学提供了标准化实验环境。通过提供机器可读的跨平台新闻源元数据,支持研究者开展新闻扩散模式分析、媒体偏见检测、跨语言信息聚合等核心课题,显著提升了网络媒体研究的可重复性与比较性。
实际应用
实际应用中,该数据集支撑了智能新闻聚合系统的开发,为个性化资讯推荐引擎提供源质量评估指标。媒体监测机构利用其构建全球新闻热点追踪系统,企业则基于feed更新频率与内容特征进行品牌声誉管理。此外,网络安全领域借助其域名分类数据建立恶意内容过滤机制。
数据集最近研究
最新研究方向
在信息聚合与内容分发领域,RSS Feed Index数据集正推动网络爬虫伦理规范与多模态信息流分析的前沿探索。研究者们借助其结构化feed元数据,深度挖掘新闻传播模式与跨平台内容同步机制,尤其在虚假信息溯源和语义特征提取方面取得显著进展。该数据集通过严格的机器人协议合规性与家庭安全过滤策略,为数字伦理研究提供了标准化实践框架,同时支撑起新一代智能资讯聚合系统的开发,对构建透明、可信的网络信息生态具有重要价值。
以上内容由遇见数据集搜集并总结生成



