five

异构互联网资源采集关键技术研究数据

收藏
国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6952a5ba195d266fa53fe885&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是“异构互联网资源采集关键技术研究数据”任务的核心产出与验证数据,旨在为解决互联网资源长期保存中面临的异构数据采集难题提供实证支持。数据集系统性地汇集了从政府类、新闻类、文化类三大类别共18个代表性网站采集的原始资源、全过程运行日志及关键技术实验数据。其主要数据项包括:以国际标准WARC格式封装的网页原始快照文件(.warc)、记录每次抓取请求详情的日志文件(.log),共同构成了一个覆盖采集全链条、多维度的高质量数据集。
提供机构:
江苏嘉图网络科技股份有限公司
二维码
社区交流群
二维码
科研交流群
商业服务