five

eot2024_hostlevel_logs

收藏
huggingface.co2025-03-24 收录
下载链接:
https://huggingface.co/datasets/commoncrawl/eot2024_hostlevel_logs
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset is a host-level summary of the initial crawl logs for the End of Term 2024 dataset. Since this project will not finish until January 2025, please do not ask for access unless you are directly involved in this effort. Organizations involved are the Library of Congress, the Internet Archive, the University of North Texas Libraries, Stanford University Libraries, the US Government Publishing Office, the US National Archives, and the Common Crawl Foundation.

本数据集为2024年期末数据集的初始爬取日志在主机层面的汇总。鉴于该项目预计直至2025年1月方能完成,除非您直接参与其中,否则请勿申请访问。参与此项目的机构包括美国国会图书馆、互联网档案馆、北德克萨斯大学图书馆、斯坦福大学图书馆、美国政府出版办公室、美国国家档案馆以及Common Crawl基金会。
提供机构:
huggingface.co
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作