Common Crawl Web Archive Data

Name: Common Crawl Web Archive Data
Creator: Common Crawl
License: 暂无描述

知名数据库2026-04-23 收录

下载链接：

https://commoncrawl.org/the-data

下载链接

链接失效反馈

官方服务：

资源简介：

Common Crawl是一个大型网页存档数据库。它自2008年起定期爬取并收录了海量的原始网页数据、元数据和文本提取内容。该数据集存储在亚马逊AWS等多个公共云平台上，供公众免费访问和使用。

提供机构：

Common Crawl

5,000+

优质数据集

54 个

任务类型

进入经典数据集