open-index/open-markdown

Name: open-index/open-markdown
Creator: open-index
Published: 2026-05-09 17:40:44
License: 暂无描述

Hugging Face2026-05-09 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/open-index/open-markdown

下载链接

链接失效反馈

官方服务：

资源简介：

Open Markdown是一个大规模的网络文本数据集，源自Common Crawl的非营利性网络爬取项目。该数据集通过将原始HTML内容转换为干净的Markdown格式，并打包成Parquet文件，同时保留了WARC元数据以便追溯。数据集目前包含CC-MAIN-2026-12爬取的数据，共773,597,197个文档，分布在44,746个分片中。处理过程中，100.3 TB的原始HTML被压缩为6.5 TB的干净Markdown，减少了93.5%。数据集采用Open Data Commons Attribution License (ODC-By) v1.0许可，与Common Crawl相同。

Open Markdown is a large-scale web text dataset built from Common Crawl, a non-profit that crawls the web and freely provides its archives and datasets to the public. The dataset processes raw HTML into clean Markdown, packaging the result into Parquet files with useful WARC metadata for traceability. It currently includes crawl CC-MAIN-2026-12 with 773,597,197 documents across 44,746 shards, processing 100.3 TB of raw HTML into 6.5 TB of clean Markdown — a 93.5% reduction. The dataset is released under the Open Data Commons Attribution License (ODC-By) v1.0, the same license used by Common Crawl.

提供机构：

open-index

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模高质量文本数据集的构建是推动模型训练与评估的关键基础。Open Markdown数据集源自Common Crawl这一非营利组织提供的公开网络爬取档案，其构建过程采用了高效的单通道直接转换流水线。该流水线首先从原始WARC文件中筛选出HTTP 200响应且内容类型为text/html的网页，随后通过轻量级基于标记的提取器将HTML转换为纯净的Markdown格式，有效剥离了标签、脚本、样式及导航等冗余信息，仅保留核心内容。转换后的数据直接以Apache Parquet格式并采用Zstd压缩进行封装，每个文件包含约10万行记录，确保了数据的高效存储与可追溯性，原始HTML到Markdown的转换实现了96.9%的体积缩减。

使用方法

为便于研究与应用，Open Markdown提供了多种灵活的数据访问方式。用户可通过Hugging Face的datasets库以流式或内存加载模式获取数据，支持按特定爬取快照或分片文件进行选择性读取。此外，利用huggingface_hub工具可直接下载Parquet文件至本地，结合DuckDB等查询引擎可实现高效的SQL式数据筛选与分析。数据集采用ODC-By许可协议，允许在注明来源的前提下自由使用，适用于语言模型训练、信息检索评估及网络文本分析等多种场景，为缺乏大规模数据处理资源的研究者降低了技术门槛。

背景与挑战

背景概述

Open Markdown数据集由open-index团队于2026年创建，其核心研究问题在于如何从海量网络爬取数据中高效提取并转换出高质量、结构化的纯文本内容，以服务于大规模语言模型的训练与检索任务。该数据集基于Common Crawl基金会提供的公开网络存档，通过精心设计的处理流程将原始HTML转换为简洁的Markdown格式，显著降低了数据存储与处理的复杂度。它的出现为自然语言处理领域提供了可直接使用的、经过深度清洗的文本资源，有效缓解了研究人员在数据预处理环节的负担，推动了开放科学数据生态的发展。

当前挑战

该数据集旨在解决从异构、非结构化的网络数据中自动化提取高质量文本内容的挑战，其核心难点在于如何精准剥离HTML页面中的导航、广告、脚本等噪声，同时保留主体内容的语义完整性与格式结构。在构建过程中，团队面临处理海量数据（如将约59.0 TB的HTML压缩至3.8 TB Markdown）所带来的计算效率与存储优化挑战，需设计流式处理管道以平衡速度与资源消耗。此外，数据集不可避免地继承了Common Crawl及公开网络固有的内容偏见，且对于代码密集型或非标准布局页面的转换效果存在局限，这要求使用者审慎评估其在不同下游任务中的适用性。

常用场景

经典使用场景

在自然语言处理领域，大规模文本数据集的构建是推动模型训练与评估的基础。Open Markdown数据集通过从Common Crawl中提取并清洗网页内容，转化为结构化的Markdown格式，为文本生成与特征提取任务提供了高质量的语料资源。其经典使用场景在于为大型语言模型的预训练与微调提供纯净、可追溯的文本数据，支持研究者直接利用经过降噪处理的网页内容，避免了原始HTML中的冗余标记与噪声干扰，从而提升模型在理解与生成自然语言方面的性能。

解决学术问题

该数据集有效解决了学术研究中网页文本数据预处理复杂、格式不统一的问题。通过将原始HTML转换为简洁的Markdown格式，并保留WARC元数据以实现数据溯源，研究者能够专注于语言模型的核心训练，而无需投入大量计算资源进行数据清洗。此外，数据集的高压缩比（HTML至Markdown减少96.9%）显著降低了存储与传输成本，为资源有限的研究机构提供了可访问的大规模语料库，促进了自然语言处理领域的开放性与可重复性研究。

实际应用

在实际应用中，Open Markdown数据集可广泛用于构建智能搜索引擎、内容推荐系统以及自动化文档生成工具。企业能够利用其纯净的Markdown文本训练定制化的语言模型，以提升客户服务聊天机器人、新闻摘要生成或教育内容解析的准确性。同时，数据集的开放许可与可追溯特性使其适用于合规性要求较高的行业，如学术出版与法律文档分析，为基于真实网页内容的应用开发提供了可靠的数据支撑。

数据集最近研究