docx-corpus

github2026-01-09 更新2026-01-10 收录

下载链接：

https://github.com/superdoc-dev/docx-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

docx-corpus是一个用于文档处理和渲染研究的最大开源.docx文件语料库。它通过Common Crawl从整个公共网络中抓取.docx文件，构建了一个庞大的测试语料库，用于文档解析和渲染引擎、视觉回归测试、特征覆盖分析、边缘案例发现和机器学习训练数据。

docx-corpus is the largest open-source .docx file corpus for document processing and rendering research. Constructed by scraping .docx files from the entire public web via Common Crawl, it serves as a comprehensive test corpus for document parsing and rendering engines, visual regression testing, feature coverage analysis, edge case discovery, and machine learning training data.

创建时间：

2026-01-09

原始信息汇总

docx-corpus 数据集概述

数据集简介

docx-corpus 旨在构建用于文档处理和渲染研究的最大开源 .docx 文件语料库。其核心目标是收集真实世界的文档，以支持可靠的文档处理工具开发。

数据来源与构建方法

主要来源：通过 Common Crawl 从整个公共网络（3B+ URLs per crawl）抓取 .docx 文件。
处理流程：
1. 从 CDX 索引中筛选 .docx URL。
2. 从 WARC 记录中下载实际文件。
3. 验证文件是否为有效的 .docx（ZIP 结构和 XML 检查）。
4. 存储去重后的文件。

数据集用途

该语料库适用于：

文档解析和渲染引擎测试。
视觉回归测试。
功能覆盖分析。
边缘案例发现。
机器学习训练数据。

数据集特征

去重方式：基于 SHA-256 内容哈希。
验证方式：ZIP 结构加 Word XML 验证。
存储方式：内容寻址（哈希值作为文件名）。
存储选项：支持本地存储（默认路径 ./corpus/documents/）或 Cloudflare R2 云存储。

获取与使用

安装：通过 git clone https://github.com/superdoc-dev/docx-corpus.git 克隆仓库，并使用 Bun 安装依赖。
基本使用：可通过命令行工具抓取指定数量的文档（例如 bun run scrape --limit 100）、检查状态或列出可用的爬取批次。
Docker 支持：提供 Docker Compose 配置，可在容器中运行 CLI 工具。

配置说明

通过环境变量进行配置，主要包括：

存储设置（本地或 Cloudflare R2 凭证）。
爬取设置（如本地存储路径、Common Crawl 爬取批次 ID）。
性能设置（如下载超时、最大文件大小、请求速率限制）。

许可与联系

许可证：MIT。
移除请求：如果发现拥有所有权的文档，可发送邮件至 help@docxcorp.us 请求移除，需提供文档哈希或 URL 以及所有权证明。

搜集汇总

数据集介绍

构建方式

在文档处理与渲染研究领域，构建高质量的测试语料库对于验证算法鲁棒性至关重要。docx-corpus数据集通过系统化流程从公共网络采集真实文档，其构建始于对Common Crawl每月发布的数十亿级URL索引进行筛选，专门提取.docx格式文件链接。随后下载对应的WARC存档文件，并经过严格的ZIP结构与XML内容验证，确保文件格式符合Office Open XML标准。最终采用SHA-256哈希值进行去重处理，以内容寻址方式存储于本地或云存储系统，形成可追溯且稳定的文档集合。

使用方法

研究人员可通过克隆项目仓库并安装依赖环境快速启用数据集工具链。使用命令行接口可灵活控制采集规模，例如限定下载数量或选择特定时期的网络爬虫存档。系统支持本地存储与Cloudflare R2云存储两种模式，用户通过环境变量即可配置存储路径与API密钥。数据集工具链提供状态监控、爬虫列表查询等辅助功能，并封装为Docker容器便于跨平台部署。这种模块化设计使得用户既能进行小规模实验验证，也能开展全量数据采集与分析工作。

背景与挑战

背景概述

在文档处理与渲染研究领域，真实世界文档的稀缺性长期制约着算法与工具的可靠性验证。docx-corpus数据集由SuperDoc团队于近年构建，旨在通过爬取公共网络中的.docx文件，构建大规模开放语料库，以应对微软Word文档数十年来积累的边缘案例与未定义行为。该数据集依托Common Crawl的非营利性网络爬虫，每月覆盖超30亿URL，为文档解析引擎、视觉回归测试及机器学习训练提供关键数据基础，显著提升了文档处理系统的鲁棒性与泛化能力。

当前挑战

docx-corpus致力于解决文档渲染领域中的泛化性与边缘案例覆盖难题，其核心挑战在于如何从海量异构网络数据中高效筛选并验证有效.docx文件，同时确保语料的多样性与代表性。构建过程中，团队需克服Common Crawl数据规模庞大带来的存储与计算压力，实施基于SHA-256哈希的内容去重，并严格验证ZIP结构与Word XML格式的完整性，以排除损坏或伪装文件。此外，平衡爬取速率与网络伦理，处理版权移除请求，亦是维持语料库合法性与可持续性的关键环节。

常用场景

经典使用场景

在文档处理与渲染研究领域，docx-corpus数据集为解决真实世界文档的复杂性提供了关键资源。该数据集通过系统化采集互联网公开的.docx文件，构建了大规模测试语料库，主要用于文档解析引擎的验证与优化。研究人员能够利用这些源自实际应用场景的文档，进行视觉回归测试和特征覆盖分析，从而深入理解Microsoft Word数十年积累的边缘案例与未公开行为。

解决学术问题

该数据集有效应对了文档处理研究中长期存在的测试数据匮乏问题。传统研究方法往往依赖合成测试用例，难以捕捉真实文档的复杂结构与格式特性。docx-corpus通过海量真实文档的聚合，使学者能够系统性地研究文档渲染的一致性、解析算法的鲁棒性以及格式兼容性等核心问题，为构建可靠的文档处理工具奠定了实证基础。

实际应用

在实际工程层面，该数据集为文档处理软件的开发与测试提供了重要支撑。开发团队可基于此语料库进行自动化测试，快速发现渲染引擎中的潜在缺陷；机器学习研究者能够将其作为训练数据，开发智能文档解析与转换系统。此外，该资源还可用于办公软件兼容性评估、文档格式标准化研究等产业相关课题。

数据集最近研究