draft
收藏Hugging Face2026-03-13 更新2026-04-23 收录
下载链接:
https://huggingface.co/datasets/open-index/draft
下载链接
链接失效反馈官方服务:
资源简介:
Open Index 是一个大规模的网络文本数据集,基于 Common Crawl 构建。该数据集通过处理原始 HTML 内容,将其转换为干净的 Markdown 格式,并保留完整的 WARC 元数据,最终打包为 Parquet 文件。当前版本包含 CC-MAIN-2026-08 爬取的 14,072,784 个文档,分布在 728 个分片中。数据集采用 Open Data Commons Attribution License (ODC-By) v1.0 许可。
数据集中的每条记录代表一个网页,包含以下字段:文档 ID(基于 URL 生成的 UUID)、原始 URL、主机名、爬取日期、WARC 记录 ID、引用的 WARC 记录 ID、原始 HTML 长度、Markdown 长度以及提取的 Markdown 内容。数据集适用于文本生成、特征提取等任务,尤其适合需要高质量网络文本的研究和应用。
数据集的创建过程包括下载、过滤、转换、打包和导出五个阶段,显著减少了数据体积(从原始 HTML 到 Markdown 的体积减少了 98.3%)。使用该数据集时需注意其可能包含公共网络中的偏见和个人敏感信息。
创建时间:
2026-03-13



