five

open-markdown

收藏
Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/open-index/open-markdown
下载链接
链接失效反馈
官方服务:
资源简介:
Open Markdown 是一个大规模的网络文本数据集,源自 Common Crawl 的非营利性网络爬虫项目。该数据集通过将原始 HTML 转换为干净的 Markdown 格式,显著减少了数据体积(从 5.6 TB 的 HTML 缩减至 371.1 GB 的 Markdown,压缩率达 96.9%),并保留了 WARC 元数据以便追溯。数据集包含 42,965,035 个文档,分布在 2760 个分片中,总大小为 115.0 GB 的 Parquet 文件(使用 Zstd 压缩)。每个文档包含 URL、主机名、爬取日期、WARC 记录 ID、HTML 和 Markdown 长度以及转换后的 Markdown 内容等字段。该数据集适用于文本生成和特征提取任务,采用 Open Data Commons Attribution License (ODC-By) v1.0 许可发布。数据集可能存在与 Common Crawl 和公开网络相同的偏见,且未应用基于机器学习的质量或毒性过滤。
创建时间:
2026-03-21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作