72m-domains-dataset
收藏github2026-03-03 更新2026-03-06 收录
下载链接:
https://github.com/digitalcortex/72m-domains-dataset
下载链接
链接失效反馈官方服务:
资源简介:
从Common Crawl的列索引(cc-index)中提取的72,475,235个唯一注册域名的数据集。该数据集可用作搜索引擎和网络研究爬虫的种子发现前沿。
A dataset of 72,475,235 unique registered domain names extracted from the column index (cc-index) of Common Crawl. This dataset can serve as a seed discovery resource for search engines and web research crawlers.
创建时间:
2026-03-03
原始信息汇总
数据集概述
基本信息
- 数据集名称: Registered domains from Common Crawl
- 数据来源: Common Crawl 的列式索引 (cc-index)
- 数据规模: 72,475,235 个唯一的已注册域名
- 主要用途: 作为搜索引擎和网络研究爬虫的种子发现前沿
包含的快照
数据集包含来自 14 次 Common Crawl 抓取的数据,具体如下:
- CC-MAIN-2025-05 (约 2025年1月)
- CC-MAIN-2025-08 (约 2025年2月)
- CC-MAIN-2025-13 (约 2025年3月)
- CC-MAIN-2025-18 (约 2025年4月)
- CC-MAIN-2025-21 (约 2025年5月)
- CC-MAIN-2025-26 (约 2025年6月)
- CC-MAIN-2025-30 (约 2025年7月)
- CC-MAIN-2025-33 (约 2025年8月)
- CC-MAIN-2025-38 (约 2025年9月)
- CC-MAIN-2025-43 (约 2025年10月)
- CC-MAIN-2025-47 (约 2025年11月)
- CC-MAIN-2025-51 (约 2025年12月)
- CC-MAIN-2026-04 (约 2026年1月)
- CC-MAIN-2026-08 (约 2026年2月)
收集方法
- 从托管在
data.commoncrawl.org的 Common Crawl 公共 cc-index Parquet 文件中提取域名。 - 对于每次抓取快照,使用 DuckDB 通过 HTTPS 读取每个 Parquet 文件,并选择
url_host_registered_domain列中不同的非空值。 - 对所有快照的结果进行去重。
- 将去重后的结果存储在一个单列的 SQLite 表中,并最终导出为 Parquet 格式。
搜集汇总
数据集介绍
构建方式
在互联网信息检索领域,构建高质量的域名数据集对于搜索引擎和网络爬虫研究至关重要。该数据集源自Common Crawl公开的列式索引文件,通过提取每个抓取快照中`url_host_registered_domain`列的非空唯一值,并利用DuckDB进行跨快照去重处理,最终整合为单一列的SQLite表并导出为Parquet格式,确保了数据的完整性与一致性。
使用方法
作为网络信息检索的基础资源,该数据集可直接应用于搜索引擎的爬虫策略优化,通过导入Parquet文件至数据分析框架如Pandas或Spark,研究者能够快速筛选目标域名并构建初始抓取队列。在学术研究中,它可用于分析域名注册趋势、网络结构演化或作为训练数据支持机器学习模型,以提升网络内容发现与索引的效率。
背景与挑战
背景概述
在互联网信息检索与网络爬虫技术持续演进的背景下,大规模、高质量的域名数据集对于搜索引擎的种子发现与网络研究具有关键意义。72m-domains-dataset由研究人员基于Common Crawl的列式索引(cc-index)构建,涵盖了2025年1月至2026年2月间14个爬取快照,提取了超过7200万个独立注册域名。该数据集的核心研究问题在于为搜索引擎与网络爬虫提供高效、全面的初始探索边界,从而提升网络覆盖的广度与深度,对信息检索、网络拓扑分析及数字资源存档等领域产生了实质性影响。
当前挑战
该数据集旨在解决网络爬虫种子发现中的覆盖范围与时效性问题,其挑战在于如何从海量、动态变化的网络数据中准确提取并去重有效域名,同时保持数据的新鲜度与代表性。在构建过程中,技术挑战集中于跨多个分布式Parquet文件的高效读取与去重操作,需处理HTTPS传输延迟与大规模数据合并的计算复杂度,并确保`url_host_registered_domain`字段的完整性,避免空值或无效条目干扰数据质量。
常用场景
经典使用场景
在互联网信息检索与网络爬虫研究领域,大规模域名数据集常被用作种子发现的前沿资源。72m-domains-dataset通过整合Common Crawl的多个快照,提供了超过7200万个唯一注册域名,为搜索引擎和网络研究爬虫构建了广泛的初始探索边界。这一数据集使得研究者能够系统性地分析网络空间的域名分布与演化规律,为高效、全面的网络内容采集奠定基础。
解决学术问题
该数据集有效应对了网络规模研究中域名覆盖不全与时效性不足的挑战。通过聚合跨时间序列的域名快照,它支持对域名生命周期、注册趋势及网络拓扑结构的动态分析。在学术层面,这有助于深化对互联网演化机制的理解,并为网络测量、信息检索算法优化及网络安全监测提供可靠的数据支撑,推动了计算社会科学与网络科学领域的实证研究进展。
实际应用
在实际应用中,该数据集为商业搜索引擎的爬虫系统提供了高质量的种子域名列表,显著提升了网页抓取的覆盖广度与效率。同时,网络安全机构可借助其监测恶意域名注册行为,辅助网络威胁情报分析。此外,市场研究与企业竞争分析也能通过域名数据洞察行业动态与品牌在线存在,实现数据驱动的决策支持。
数据集最近研究
最新研究方向
在网络信息检索与搜索引擎技术领域,大规模域名数据集正成为探索网络结构动态演变的关键资源。72m-domains-dataset作为从Common Crawl提取的超过7200万个独立注册域名的集合,为前沿研究提供了丰富的种子发现基础。当前研究聚焦于利用其跨14个爬取周期的时序快照,分析域名注册与消亡的时空模式,以揭示网络生态的演化规律。该数据集与人工智能驱动的网络爬虫优化、虚假信息传播溯源以及新兴网站发现等热点议题紧密相连,其高覆盖度和时效性为构建下一代智能搜索引擎和网络监测系统提供了坚实的数据支撑,对推动开放网络数据的学术与工业应用具有深远意义。
以上内容由遇见数据集搜集并总结生成



