statistics
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/statistics?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
Common Crawl Statistics 提供了关于 Common Crawl 月度爬取档案的基本指标,包括页面数量、顶级域名分布和爬取重叠情况等。它包含字符集、爬取指标、爬取重叠、爬取大小、排名前500的域名、语言、MIME类型和顶级域名等多项统计数据。其中,字符集统计了HTML页面的编码方式;爬取指标来源于爬虫日志文件,包含URL数据库大小、抓取列表大小、抓取响应状态以及HTTP/HTTPS协议的使用情况;爬取重叠通过计算唯一URL或内容摘要的Jaccard相似性来衡量;爬取大小展示了每月发布的页面数量,以及在主机、域名和顶级域名等不同聚合级别的规模;排名前500的域名展示了页面抓取数量最多的前500个注册域名;语言统计了文档的主要语言覆盖率;MIME类型展示了抓取的各种内容格式的百分比;顶级域名则可以指示数据的代表性,以及数据集或特定爬取是否偏向某些国家、地区或语言。
提供机构:
AIWizards
创建时间:
2024-07-19



