aurora-robots-txt

Name: aurora-robots-txt
Creator: Nasjonalbiblioteket AI Lab
Published: 2026-03-25 22:45:48
License: 暂无描述

Hugging Face2026-03-25 更新2026-03-26 收录

下载链接：

https://huggingface.co/datasets/NbAiLab/aurora-robots-txt

下载链接

链接失效反馈

官方服务：

资源简介：

Aurora 数据集专注于收集和分析 robots.txt 文件。数据集包含三个主要字段：'url' 表示 robots.txt 文件的 URL，'content' 记录文件内容（对于返回 404 Not Found 或 410 Gone 的页面，假定允许所有访问；对于返回 403 Forbidden 的页面，假定禁止所有访问；其他错误情况则记录为 null），'fetched' 记录抓取时间戳。该数据集适用于研究网站爬虫协议、访问控制策略及网络爬虫行为规范等领域。

提供机构：

Nasjonalbiblioteket AI Lab

创建时间：

2026-03-25

原始信息汇总

数据集概述

数据集基本信息

数据集名称：aurora-robots-txt
来源：Hugging Face（NbAiLab）
地址：https://huggingface.co/datasets/NbAiLab/aurora-robots-txt

数据集用途

为创建Aurora数据集而获取的robots.txt文件。

数据内容与结构

数据列：
1. url：获取的robots.txt文件的URL。
2. content：响应的内容。
  - 若响应状态为404 Not Found或410 Gone，则假定允许所有访问。
  - 若响应状态为403 Forbidden，则假定禁止所有访问。
  - 若尝试访问但出现其他错误，则该字段值为null。
3. fetched：访问的时间戳。

数据获取说明

数据通过抓取robots.txt文件获得，并根据HTTP响应状态对content字段进行了逻辑处理。

5,000+

优质数据集

54 个

任务类型

进入经典数据集