VersionDB Samples

github2026-03-25 更新2026-03-06 收录

下载链接：

https://github.com/vdbio/versiondb_samples

下载链接

链接失效反馈

官方服务：

资源简介：

以下数据集是从2025年9月至2026年1月期间在https://versiondb.io/上提供的样本数据编译而成。数据以嵌套JSON格式存储，包含域名的URL路径和爬取时的状态快照。

This dataset is compiled from sample data available on https://versiondb.io/ between September 2025 and January 2026. The data is stored in nested JSON format, including URL paths of domain names and status snapshots captured during the crawling process.

创建时间：

2026-03-03

原始信息汇总

VersionDB Samples 数据集概述

数据集来源

数据集编译自 https://versiondb.io/ 在2025年9月至2026年1月期间提供的样本数据。

数据归档文件

数据集包含以下按时间顺序排列的归档文件，每个文件对应特定的抓取周期：

归档文件	独立域名数量	总URL数量	抓取周期
`2026_jan.zip`	52,700	136,500	2026年1月12日 – 14日
`2025_dec.zip`	67,094	190,790	2025年12月4日 – 6日
`2025_nov.zip`	144,516	427,962	2025年11月11日 – 16日
`2025_oct.zip`	50,000	192,374	2025年10月5日 – 12日
`2025_sept.zip`	50,000	263,427	2025年9月5日 – 12日

所有归档文件均可在以下地址获取：https://github.com/vdbio/versiondb_samples/releases

统计报告

每个归档文件的生成报告和统计数据位于 stats/ 目录下，并按抓取周期组织。

数据格式

数据采用嵌套JSON结构。
顶级键为域名（例如 "yadays.it"）。
二级键为URL路径（例如 "/"）。
值为一个快照对象，代表该URL在抓取时的状态。

数据模式（Schema）

快照对象包含以下字段：

字段	类型	描述
`date`	`string` (ISO 8601)	快照捕获的UTC时间戳。
`httpProtocol`	`string`	协商的HTTP协议和TLS版本。
`httpStatus`	`integer`	服务器返回的HTTP响应状态码。
`ipAddress`	`string`	处理请求的服务器的解析IP地址。
`ipASN`	`string (nullable)`	与IP地址关联的自洽系统名称。
`ipCountry`	`string (nullable)`	与IP地址关联的国家。
`httpHeaderHash`	`string`	响应头的Base32编码SHA1哈希值。
`httpHeaderTechnologies`	`[]string`	从响应头中识别的技术或软件。
`httpHeaderUrls`	`[]string`	在响应头中找到的URL。
`httpHeaderByteSize`	`integer`	原始响应头的大小（字节）。
`httpBodyHash`	`string`	响应体的Base32编码SHA1哈希值。
`httpBodyTechnologies`	`[]string`	从响应体中识别的技术或框架。
`httpBodyUrls`	`[]string`	从响应体中提取的URL。
`httpBodyMetaTags`	`object`	从响应体解析出的HTML `<meta>` 标签的键值映射。
`httpBodyByteSize`	`integer`	响应体的大小（字节）。
`httpBodyPageTitle`	`string (nullable)`	HTML `<title>` 元素的文本内容。仅当页面没有 `<title>` 标签时为 `null`。

搜集汇总

数据集介绍

构建方式

在互联网数据存档与版本追踪领域，VersionDB Samples数据集通过系统性的网络爬取流程构建而成。该数据集采集自versiondb.io平台在2025年9月至2026年1月期间公开的样本数据，涵盖了五个不同时间段的网络快照。每个归档文件对应一个特定的爬取周期，通过自动化工具对大量独立域名及其URL路径进行抓取，并将每次访问的完整HTTP响应状态、协议信息、服务器元数据以及网页内容特征，以结构化的嵌套JSON格式予以保存，从而形成了一系列具有时间序列属性的网页状态快照集合。

使用方法

研究人员可利用该数据集开展网络科学与数字人文领域的实证分析。数据以按爬取月份组织的ZIP归档文件形式发布，解压后即可获得结构清晰的JSON文件。使用者可通过解析顶层域名、次级URL路径的嵌套键值结构，访问到具体的网页快照对象。基于标准化的字段定义，如时间戳、技术栈列表和内容哈希，研究者能够进行跨时间点的内容差异对比、技术采用趋势分析、网络地理信息映射或构建网页完整性验证模型。数据集附带的统计报告亦为宏观层面的数据分布探索提供了便利的切入点。

背景与挑战

背景概述

VersionDB Samples数据集由vdbio机构于2025年9月至2026年1月期间构建，旨在系统性地收集与存档网络资源的时序快照。该数据集聚焦于网络演化分析的核心研究问题，通过捕获特定时间点下网站的协议、状态、技术栈及内容哈希等元数据，为网络测量、数字保存及技术检测领域提供了高粒度的纵向观测基础。其结构化JSON格式与详尽的字段设计，显著增强了网络状态追踪与历史比较的可行性，对理解互联网的动态性与技术生态变迁具有重要价值。

当前挑战

该数据集致力于应对网络演化追踪中的关键挑战，包括如何高效识别与记录网站内容、技术栈及基础设施的时序变化，并确保快照的完整性与一致性。在构建过程中，面临大规模分布式爬取的技术复杂性，需处理动态内容渲染、反爬虫机制及海量数据存储等问题；同时，数据清洗与标准化要求极高，需协调异构响应格式，并保证元数据字段的准确解析与归一化，以支撑可靠的纵向分析。

常用场景

经典使用场景

在互联网档案与网页演化研究领域，VersionDB Samples数据集以其时序性的网页快照结构，为学者提供了分析网站内容动态变迁的珍贵素材。该数据集通过捕获特定时间段内数十万URL的完整HTTP响应，包括协议、状态码、技术栈及元数据，使得研究者能够追溯网页在不同时间点的技术配置与内容形态，从而揭示网络生态的演进规律。

解决学术问题

该数据集有效应对了网络科学中网页版本追踪与长期保存的挑战，为解决网站技术栈演化、内容漂移检测以及网络基础设施地理分布分析等学术问题提供了实证基础。其精细的结构化数据允许量化研究网页稳定性、技术采用趋势及信息传播路径，对数字文化遗产保存和网络可靠性评估具有深远意义。

实际应用

在实际应用层面，VersionDB Samples支持网络安全团队进行威胁情报分析，通过识别网站技术漏洞的历史暴露情况来评估风险。同时，数字营销机构可利用其追踪竞争对手网站的内容更新频率与技术栈变化，优化自身网络策略。此外，该数据集还为互联网档案馆提供了补充性的快照来源，增强了对消失网页的恢复能力。

数据集最近研究