OpenTransformer/web-crawl-2026
收藏Hugging Face2026-04-18 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/OpenTransformer/web-crawl-2026
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
language:
- en
tags:
- web-crawl
- pretraining
- nlp
- text-corpus
pretty_name: Web Crawl 2026
size_categories:
- 10B<n<100B
---
# Web Crawl 2026
A large-scale web crawl dataset for language model pretraining, collected by the OpenTransformer project.
## Dataset Description
This dataset contains text extracted from web pages crawled directly from the internet using custom high-throughput crawlers. All data is freshly scraped.
### Data Format
Each record is a JSON line (gzipped) with fields:
- text: extracted text content (200-200,000 chars)
- url: source URL
- domain: source domain
- timestamp: crawl timestamp (ISO 8601)
- source: crawler identifier (crawl_rust_v1, crawl_go_v1, crawl_v5)
### Collection Methods
Three crawlers run in parallel on a Vast.ai GPU box (Titan Xp, $0.06/hr):
| Crawler | Language | Throughput | 1.2GB Chunk Time | Architecture |
|---------|----------|------------|-------------------|-------------|
| crawl_rust | Rust | 150-300 docs/s | 5-6 min | 500 async workers, tokio |
| crawl_go | Go | 11 docs/s | ~2 hrs | 150 goroutines |
| crawl_v5.py | Python | 0.8 docs/s | ~25 hrs | 20 async workers |
The Rust crawler is 27x faster than Go and 375x faster than Python.
### Rust Crawler Architecture
Source code: crawler/rust/
Key design decisions:
- 500 concurrent async workers via tokio + semaphore-based backpressure
- Background queue refiller: seed fetching runs in a separate task, never blocks crawling
- Pre-generated seed file: 593K URLs from Common Crawl index (12 crawl versions x 20 TLD patterns)
- Link discovery: extracts up to 50 links per crawled page, shuffled for domain diversity
- Content dedup: MD5 hash of first 500 chars, stored in DashMap (lock-free concurrent hashmap)
- Domain throttling: max 1000 pages per domain to ensure diversity
- Streaming gzip: writes compressed JSONL chunks (~1.2GB raw -> ~350MB compressed)
- Auto-upload: each completed chunk is uploaded to HuggingFace Hub
Seed sources:
1. Common Crawl URL index (CC-MAIN-2024-10 through CC-MAIN-2025-08)
2. Wikipedia random articles API (20K articles)
3. Sitemaps from 34 major sites (Reuters, BBC, Nature, StackOverflow, etc.)
4. Hacker News top/new/best stories
Performance on Titan Xp box ($0.06/hr):
- Phase 1: 562K seeds loaded in 28 seconds
- Phase 2: 150-300 docs/s sustained throughput
- ~1.2GB chunk every 5-6 minutes
- ~12-15 GB/hour of raw crawled text
- Cost: ~$0.004 per GB of crawled text
### Building and Running
Install Rust, then:
cd crawler/rust
cargo build --release
ulimit -n 65536
./target/release/crawl_rust > crawl.log 2>&1
### Quality Filtering
- HTML text extraction via scraper crate (article/main/body selectors)
- Minimum 200 chars, maximum 200K chars
- Content-type filtering (only text/html)
- URL filtering: blocks social media, login pages, media files, admin pages
- Deduplication via MD5 content hash
## Intended Use
Pretraining data for the AGILLM-3 language model (698M params, joint AR+SAT architecture).
## License
Apache 2.0
提供机构:
OpenTransformer
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,大规模高质量文本语料是预训练语言模型的基础。Web Crawl 2026 数据集通过并行部署三种不同技术栈的网络爬虫系统构建而成,其中以 Rust 语言编写的异步爬虫为核心,其架构采用 500 个并发工作线程与基于信号量的背压控制,实现了每秒 150 至 300 个文档的高吞吐量采集。数据源种子来自 Common Crawl 索引、维基百科 API 以及多个权威站点的站点地图,采集过程中实施了严格的去重机制与域名限流策略,确保文本内容的多样性与新鲜度。每个采集块以压缩 JSONL 格式自动上传,形成了原始规模介于 100 亿至 1000 亿字符之间的大规模语料库。
特点
该数据集作为专为语言模型预训练设计的大规模网络爬取语料,展现出显著的技术与结构特点。其核心特征在于高效并行的采集架构,Rust 爬虫的性能达到 Go 版本的 27 倍与 Python 版本的 375 倍,实现了极低的单位数据采集成本。数据内容经过多层质量过滤,包括基于字符长度的截断、内容类型筛选以及通过 MD5 哈希的重复检测,保障了文本的可用性与多样性。每条记录均附带完整的元数据,如来源 URL、域名、时间戳及采集器标识,为后续的数据溯源与领域分析提供了结构化支持。数据集遵循 Apache 2.0 许可协议,兼具规模性、新鲜度与良好的可访问性。
使用方法
该数据集主要服务于语言模型的预训练任务,特别是为 AGILLM-3 这类结合自回归与前缀自注意力架构的模型提供训练素材。使用者可通过 Hugging Face Hub 直接获取以 gzip 压缩的 JSONL 格式文件,每条记录包含提取的文本内容及相关元数据。在实际应用中,研究人员可依据 URL 域名或时间戳字段对数据进行子集划分,以针对特定领域或时段进行模型训练。由于数据已经过基础清洗与去重,用户可将其直接纳入预处理流水线,用于构建多语言或领域自适应的预训练语料库。数据集的开放许可也为商业与学术用途的二次分发与修改提供了便利。
背景与挑战
背景概述
随着大规模语言模型预训练需求的日益增长,高质量、多样化且时效性强的文本语料库成为自然语言处理领域的关键资源。Web Crawl 2026数据集由OpenTransformer项目于2026年创建,旨在通过高效网络爬虫技术,从互联网实时抓取海量网页文本,为语言模型预训练提供新鲜、丰富的原始数据。该数据集的核心研究问题在于如何构建一个规模庞大、内容多样且质量可控的预训练语料,以支持如AGILLM-3等先进模型在文本生成任务上的性能提升,对推动开放领域自然语言理解与生成技术的发展具有重要影响力。
当前挑战
Web Crawl 2026数据集所解决的领域问题是为语言模型预训练提供大规模文本语料,其挑战在于确保数据的多样性、时效性与质量,同时避免噪声内容如重复文本、低质量网页或偏见信息的混入。在构建过程中,技术挑战尤为突出:需设计高吞吐量的异步爬虫架构以应对海量URL处理,实现高效的内容去重与域名限制来保障数据分布均衡,并克服不同编程语言(如Rust、Go、Python)在并发性能上的显著差异,其中Rust爬虫虽速度优势明显,但需精细优化内存管理与流式压缩,以在有限计算资源下维持稳定数据产出。
常用场景
经典使用场景
在自然语言处理领域,大规模预训练语料库是推动语言模型性能突破的关键基石。Web Crawl 2026数据集以其海量、多样且新鲜的网络文本内容,为语言模型的预训练提供了经典的应用场景。该数据集通过高效爬虫技术从互联网实时采集文本,覆盖新闻、百科、技术论坛等多种来源,确保了数据的时效性和广泛性。研究人员通常利用此类数据集进行自监督学习,通过掩码语言建模或因果语言建模等任务,使模型学习语言的深层结构和语义知识,为下游任务奠定坚实的知识基础。
解决学术问题
该数据集有效解决了自然语言处理研究中高质量、大规模预训练数据稀缺的学术难题。传统预训练语料往往存在规模有限、领域覆盖不全或时效性不足等问题,制约了模型对动态语言现象的理解能力。Web Crawl 2026通过系统化的网络爬取和去重过滤机制,提供了数十亿级别的纯净文本,支持模型学习更丰富的语言模式和世界知识。这不仅提升了模型在通用语言理解任务上的表现,也为探索模型缩放定律、数据效率以及多语言能力等前沿研究方向提供了可靠的实验基础。
衍生相关工作
围绕Web Crawl 2026这类大规模网络语料,学术界衍生了一系列经典研究工作。例如,基于类似数据集的预训练模型如GPT系列、BERT及其变体,推动了掩码语言建模和生成式预训练范式的演进。这些工作深入探索了数据清洗策略、领域平衡方法以及高效爬虫架构的设计,进一步优化了语料质量与采集效率。同时,相关研究也聚焦于数据伦理、版权合规以及去偏技术,促进了负责任的数据使用实践,为后续更大规模语料库的构建与应用提供了重要的技术参考和规范指引。
以上内容由遇见数据集搜集并总结生成



