five

statistics

收藏
Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/statistics
下载链接
链接失效反馈
官方服务:
资源简介:
Common Crawl Statistics 提供了关于 Common Crawl 月度爬取档案的基本指标,包括页面数量、顶级域名分布和爬取重叠情况等。它包含字符集、爬取指标、爬取重叠、爬取大小、排名前500的域名、语言、MIME类型和顶级域名等多项统计数据。其中,字符集统计了HTML页面的编码方式;爬取指标来源于爬虫日志文件,包含URL数据库大小、抓取列表大小、抓取响应状态以及HTTP/HTTPS协议的使用情况;爬取重叠通过计算唯一URL或内容摘要的Jaccard相似性来衡量;爬取大小展示了每月发布的页面数量,以及在主机、域名和顶级域名等不同聚合级别的规模;排名前500的域名展示了页面抓取数量最多的前500个注册域名;语言统计了文档的主要语言覆盖率;MIME类型展示了抓取的各种内容格式的百分比;顶级域名则可以指示数据的代表性,以及数据集或特定爬取是否偏向某些国家、地区或语言。
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作