five

URL Crawler with Wayback Machine Recovery Dataset

收藏
github2025-03-03 更新2025-02-22 收录
下载链接:
https://github.com/mdisec/cve-url-crawling-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含1百万URLs的数据集,其中约40%的链接已经无效。该数据集用于爬取这些URLs,存储它们的HTML内容,并使用Wayback Machine恢复无效链接的内容。

A dataset containing 1 million URLs, approximately 40% of which are invalid. This dataset is designed to crawl these URLs, store their HTML content, and retrieve the content of the invalid links via the Wayback Machine.
创建时间:
2025-02-21
原始信息汇总

URL爬取与Wayback Machine恢复数据集

数据集概述

  • 数据集名称:URL Crawler with Wayback Machine Recovery
  • 数据集大小:1百万个URL
  • 数据集特点:约40%的URL为死链

数据集目的

  • 高效爬取这些URL,存储它们的HTML内容至数据库
  • 使用Wayback Machine恢复死链的内容

使用要求

  1. 活跃URL爬取:获取并存储每个有效URL的完整HTML内容
  2. 处理单页应用:使用Playwright或类似的无头浏览器渲染JavaScript重页面
  3. 死链恢复:如果URL无效,从Wayback Machine提取并存储内容
  4. 数据库存储:将所有结果存储在SQLite数据库中

预期输出

  • 包含所有处理过URL的HTML内容的SQLite文件
  • JavaScript-based页面的正确渲染
  • 从Wayback Machine恢复的死链内容

数据格式

{cve_id: CVE-2023-52905, urls: [https://git.kernel.org/stable/c/53da7aec32982f5ee775b69dce06d63992ce4af3, https://git.kernel.org/stable/c/c8ca0ad10df08ea36bcac1288062d567d22604c9, https://lore.kernel.org/linux-cve-announce/2024082113-CVE-2023-52905-53fd@gregkh/T, https://nvd.nist.gov/vuln/detail/CVE-2023-52905, https://www.cve.org/CVERecord?id=CVE-2023-52905]}

技术栈建议

  • Python(requests, BeautifulSoup, Playwright, SQLite)
  • Wayback Machine API 用于获取存档内容
  • 异步处理以提高效率

参与方式

  • Fork、贡献或联系以协作
  • 如果有兴趣和信心解决问题,可以通过DM方式联系,提供数据集并期待处理后的SQLite数据库文件。
搜集汇总
数据集介绍
main_image_url
构建方式
URL Crawler with Wayback Machine Recovery Dataset的构建采取自动化抓取与内容恢复相结合的方式。该数据集首先包含了100万个URL,其中约40%为无效链接。构建过程中,对活动链接进行抓取并存储HTML内容至数据库,对于无效链接则利用Wayback Machine API进行内容恢复。
特点
该数据集的特点在于其综合运用了爬虫技术和网页存档技术,对大量URL进行有效处理。它不仅涵盖了活动链接的HTML内容,还包括了对无效链接的历史内容恢复。此外,数据集存储格式规范,便于后续的数据处理与分析。
使用方法
使用该数据集时,用户需要具备一定的编程技能,能够利用Python及相关库如requests、BeautifulSoup、Playwright和SQLite进行数据操作。用户需遵循数据集提供的指南,对活动链接进行内容抓取,对无效链接通过Wayback Machine API进行内容恢复,并将所有结果存储于SQLite数据库中。
背景与挑战
背景概述
URL Crawler with Wayback Machine Recovery Dataset是一款旨在高效爬取并存储URLs HTML内容的数据集,特别是针对那些已经失效的链接。该数据集包含了100万个URLs,其中约40%为死链。此数据集的创建是为了解决互联网上链接失效后内容难以找回的问题,由研究人员通过爬取和存储网页内容,并利用Wayback Machine恢复死链内容的方式构建而成。它对于网络存档、网页内容恢复以及网络安全等研究领域具有显著意义。
当前挑战
数据集面临的挑战主要包括:1)如何高效地爬取并存储大量活跃URLs的HTML内容;2)处理JavaScript渲染的SPA应用页面,确保内容正确抓取;3)对死链的恢复,需要通过Wayback Machine API获取存档内容;4)数据存储的优化,所有结果需存储在SQLite数据库中。构建过程中的挑战还包括处理异步处理效率问题,以及如何确保大规模数据处理时的稳定性和准确性。
常用场景
经典使用场景
针对互联网中URL的存活性检测与内容抓取,URL Crawler with Wayback Machine Recovery Dataset提供了至关重要的数据基础。该数据集通过爬取活跃URL并存储其HTML内容,同时针对失效链接利用Wayback Machine进行内容恢复,成为处理大规模链接存活性检查的经典应用场景。
解决学术问题
该数据集解决了在网络安全、网站存档以及信息检索等领域中,如何高效处理大量URL链接,并对失效链接进行内容恢复的学术问题。它的应用极大提升了学术研究中对互联网历史数据获取的效率和准确性,对网络存档完整性研究具有重要的理论和实践意义。
衍生相关工作
基于该数据集,研究者们可以进一步开展多项衍生工作,如构建更加智能的URL爬取策略、提高Wayback Machine内容恢复的成功率,以及开发针对特定类型网页的爬取和存档技术,从而推动互联网数据存档领域的相关研究和技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作