Orkavi-Big-RSS_337m
收藏Orkavi-Big-RSS_337m 数据集概述
数据集简介
Orkavi-Big-RSS_337m 是一个生产就绪的数据集,包含 3.37 亿条网络内容记录。该数据集是完整 Orkavi-Big-RSS_1.1b 数据集的过滤子集,专为需要结构化网络内容智能的企业应用而设计。
技术规格
- 数据量:3.37 亿条记录
- 存储大小:140GB
- 数据格式:CSV
- 编码方式:UTF-8
数据结构
数据集包含 4 个字段:
| 字段名 | 类型 | 描述 |
|---|---|---|
url |
字符串 | 源URL |
content_mime_type |
字符串 | 声明的MIME类型 |
content_mime_detected |
字符串 | 检测到的MIME类型 |
url_host_name |
字符串 | 主机名 |
访问方式
存储位置:AWS S3(s3://authentik-rss-data/big-1.1b/7479cadc-dd1e-4b92-a373-22e399f24c63.csv)
计费方式:请求方支付 S3 传输和存储费用
应用场景
- 内容智能:网络内容分类与分析
- 域名分析:主机名和URL模式分析
- 数据验证:MIME类型验证与检测
- 威胁情报:URL和域名监控
- 商业智能:网络内容跟踪与分析
许可信息
开放数据共享署名许可(ODC-By)v1.0 - 允许商业和非商业使用
引用方式
BibTeX
bibtex @dataset{orkavi_big_rss_337m_odin_glynn, author = {Glynn-Martin, Odin}, title = {Orkavi-Big-RSS_337m: Open-Web RSS Feed Dataset}, year = {2025}, publisher = {Hugging Face, GitHub, Kaggle}, url = {https://huggingface.co/datasets/odinglynn/Orkavi-Big-RSS_337m, https://github.com/odinglyn0/Orkavi-Big-RSS_337m, https://www.kaggle.com/datasets/odinglynnmartin/orkavi-big-rss-337m} }
APA
Glynn-Martin, O. (2025). Orkavi-Big-RSS_337m: Open-Web RSS Feed Dataset. Hugging Face, GitHub, Kaggle.
联系方式
作者:Odin Glynn-Martin
邮箱:odin@odinglynn.com




