five

Common Crawl Web Archive Data

收藏
知名数据库2026-04-23 收录
下载链接:
https://commoncrawl.org/the-data
下载链接
链接失效反馈
官方服务:
资源简介:
Common Crawl是一个大型网页存档数据库。它自2008年起定期爬取并收录了海量的原始网页数据、元数据和文本提取内容。该数据集存储在亚马逊AWS等多个公共云平台上,供公众免费访问和使用。
提供机构:
Common Crawl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作