登录后查看消息通知
搜索
常见问题
消息
登录
Common Crawl Web Archive Data
收藏
知名数据库
2026-04-23 收录
下载链接:
https://commoncrawl.org/the-data
下载链接
链接失效反馈
官方服务:
购买咨询
问题咨询
资源简介:
Common Crawl是一个大型网页存档数据库。它自2008年起定期爬取并收录了海量的原始网页数据、元数据和文本提取内容。该数据集存储在亚马逊AWS等多个公共云平台上,供公众免费访问和使用。
应用场景:
提供机构:
Common Crawl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
© 2023-2025 上海数据发展科技有限责任公司 版权所有
沪ICP备17003045号-15
沪公网安备31010402336585号
热门搜索
社区交流群
面向社区/商业的数据集话题
科研交流群
面向高校/科研机构的开源数据集话题
数据驱动未来
携手共赢发展
商业合作