fineweb-nlp
收藏Hugging Face2026-04-16 更新2026-04-17 收录
下载链接:
https://huggingface.co/datasets/open-index/fineweb-nlp
下载链接
链接失效反馈官方服务:
资源简介:
FineWeb NLP 是一个基于 FineWeb 英语网页文本语料库的预处理数据集,旨在为研究人员提供便捷的文本分析资源。数据集包含从 235,024,963 个英文文档中提取的 7,714,413,622 个句子和 7,155,644,839 个词标记,源数据总量达 451.9 GB。数据集按语言感知分割技术处理,持续更新,并分为四种类型:句子(sentences)、段落(paragraphs)、词频(words)和 n-gram 频率(ngrams)。每种类型的数据都包含详细的元数据,如来源文档 ID、URL、位置索引等。数据集适用于文本生成、特征提取和文本分类等自然语言处理任务。数据以 Snappy 压缩的 Parquet 文件格式存储,支持通过 DuckDB、Python 的 datasets 库等多种工具进行高效查询和分析。
创建时间:
2026-04-15
原始信息汇总
FineWeb NLP 数据集概述
数据集基本信息
- 数据集名称:FineWeb NLP
- 托管地址:https://huggingface.co/datasets/open-index/fineweb-nlp
- 许可证:odc-by
- 任务类别:文本生成、特征提取、文本分类
- 语言:英语
- 规模类别:10亿到100亿条数据之间
- 数据格式:Parquet
- 标签:parquet, fineweb, nlp, sentences, paragraphs, words, ngrams, english
数据内容与规模
- 总句子数:7,714,413,622
- 总段落数:235,024,963
- 总词元数:7,155,644,839
- 源文档数:235,024,963 个英文文档
- 处理的源数据量:451.9 GB
- 输出Parquet文件大小:857.7 GB
- 处理的爬取快照数:2个
数据集配置
数据集提供四种主要配置,每种配置对应一种预分割的语言单元:
1. 句子
- 配置名:
sentences - 行数:7,714,413,622
- 描述:每行一个句子,包含源文档ID、URL和位置索引。
- 列结构:
sentence(string): 提取的句子。doc_id(string): FineWeb中的源文档UUID。doc_url(string): 原始网页URL。position(int32): 文档内基于0的句子索引。length(int32): 句子长度(UTF-8字节数)。dump(string): Common Crawl快照标识。
2. 段落
- 配置名:
paragraphs - 行数:235,024,963
- 描述:每行一个段落,包含每个段落的句子计数。
- 列结构:
paragraph(string): 段落文本。doc_id(string): 源文档UUID。doc_url(string): 原始网页URL。position(int32): 文档内基于0的段落索引。length(int32): 段落长度(UTF-8字节数)。dump(string): Common Crawl快照标识。sentence_count(int32): 此段落中检测到的句子数。
3. 词频
- 配置名:
words - 条目数:12,449,849
- 描述:每个分片的词频和文档频率表。
- 列结构:
word(string): 小写、NFC规范化的词。frequency(int64): 此分片内的出现次数。doc_frequency(int64): 包含此词的文档数(分片内)。dump(string): Common Crawl快照标识。
4. N元语法频率
- 配置名:
ngrams - 条目数:0
- 描述:每个分片的二元到五元语法频率表。
- 列结构:
ngram(string): 空格连接的n元语法。n(int32): N元语法大小:2、3、4或5。frequency(int64): 此分片内的出现次数。dump(string): Common Crawl快照标识。
特定爬取快照配置
数据集还包含针对特定Common Crawl快照的配置,例如:
sentences-CC-MAIN-2016-26paragraphs-CC-MAIN-2016-26words-CC-MAIN-2016-26ngrams-CC-MAIN-2016-26sentences-CC-MAIN-2015-40paragraphs-CC-MAIN-2015-40words-CC-MAIN-2015-40ngrams-CC-MAIN-2015-40
数据组织方式
数据按以下目录结构组织:
open-index/fineweb-nlp/ ├── README.md ├── stats.csv └── data/ ├── sentences/ │ └── {dump}/{shard}.parquet ├── paragraphs/ │ └── {dump}/{shard}.parquet ├── words/ │ └── {dump}/{shard}.parquet └── ngrams/ └── {dump}/{shard}.parquet
每个源FineWeb分片对应每个快照每种类型的一个输出文件。
按爬取快照的分布
句子分布
CC-MAIN-2016-26: 4,383,722,027 个句子CC-MAIN-2015-40: 3,330,691,595 个句子
段落分布
CC-MAIN-2016-26: 131,505,027 个段落CC-MAIN-2015-40: 103,519,936 个段落
分割质量概览
CC-MAIN-2016-26: 每个源文档平均提取33.3个句子CC-MAIN-2015-40: 每个源文档平均提取32.2个句子
数据集统计摘要
| 指标 | 值 |
|---|---|
| 平均句子长度 | 94.9 字符 |
| 平均段落长度 | 3146.2 字符 |
| 平均每个文档的句子数 | 32.8 |
| 平均每个文档的段落数 | 1.0 |
| 平均每个段落的句子数 | 32.8 |
按爬取快照的详细统计
| # | 爬取快照 | 句子数 | 段落数 | 词元数 | 平均句子长度 | 平均段落长度 | 文档数 | 分片数 | 源数据大小 | 输出大小 |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | CC-MAIN-2016-26 |
4,383,722,027 | 131,505,027 | 7,155,644,839 | 94.6 | 3185.7 | 131,505,027 | 150 | 256.0 GB | 483.1 GB |
| 2 | CC-MAIN-2015-40 |
3,330,691,595 | 103,519,936 | 0 | 95.3 | 3095.9 | 103,519,936 | 98 | 195.9 GB | 374.5 GB |
数据来源与处理
- 源数据:来自HuggingFace的FineWeb英文网页文本语料库。
- 处理方式:使用语言感知分割将每个文档预分割为四个语言上有用的单元。
- 设计特点:词频和N元语法频率按源分片计算,而非聚合到单个全局表中,以保持每个输出文件小巧且自包含。
- 可追溯性:每一行数据都可通过
doc_id和doc_url字段追溯到其源文档。dump字段标识文档来源的Common Crawl快照,支持跨十年网页内容的语言使用时间分析。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,大规模语料库的构建是推动模型发展的关键基石。FineWeb NLP数据集源自HuggingFace精心策划的FineWeb英文网络文本语料库,其构建过程体现了高效的数据处理策略。该数据集通过对FineWeb中约2350万份文档进行语言感知分割,将原始文本转化为句子、段落、词频及n-gram频率四种结构化单元。处理流程采用逐分片(shard)的序列化方式,每个分片独立完成下载、分割、统计与写入,并利用Snappy压缩技术存储为Parquet格式,确保了数据处理的可靠性与可扩展性,同时避免了大规模内存消耗。
特点
FineWeb NLP数据集以其精细的层次化结构和丰富的时间维度信息而著称。数据集涵盖超过77亿个句子和71亿个词符,源自2013年至2025年间110个Common Crawl快照,提供了跨越十年的网络语言演变视角。其核心特征在于四种互补的数据视图:句子与段落保留了完整的上下文与文档溯源信息,词频与n-gram频率则以分片为单位统计,支持高效的聚合查询。此外,每条记录均关联原始文档标识、URL及抓取时间戳,使得研究者能够进行细粒度的时序分析与质量评估。
使用方法
该数据集为自然语言处理研究提供了灵活多样的使用途径。用户可通过DuckDB直接远程查询Parquet文件,无需全量下载即可执行句子检索、词频统计或n-gram分析等操作。借助HuggingFace的datasets库,可实现流式数据加载,支持大规模文本生成、特征提取等任务的模型训练。对于特定抓取周期或数据类型的需求,可使用huggingface-cli工具进行选择性下载。数据集的结构化设计使得跨分片聚合查询极为便捷,例如通过简单SQL语句即可获取全局词频分布,为语言建模、词汇演变研究及语料库语言学提供了高效的数据基础。
背景与挑战
背景概述
在自然语言处理领域,大规模、高质量文本语料库是驱动模型进步的核心资源。FineWeb-NLP数据集由HuggingFace机构于近期构建并发布,其核心研究问题在于解决从海量网络文本中高效提取结构化语言单元的挑战。该数据集基于FineWeb英语网络文本语料库,通过对超过235百万份文档进行语言感知分割,生成了句子、段落、词频及n-gram频率等多种结构化数据视图。其设计旨在为研究者提供可直接用于文本生成、特征提取和文本分类等任务的精炼数据,避免处理原始数十TB级数据的负担,从而显著提升了语言模型预训练与语言分析研究的效率。
当前挑战
FineWeb-NLP数据集所针对的领域挑战在于如何从异构且噪声丰富的网络文本中构建高质量、结构化的语言资源,以支持前沿自然语言处理模型的训练与分析。具体挑战包括:在数据构建过程中,需处理高达48.6 TB的原始文本,并实施有效的质量过滤与去重;同时,设计可扩展的流水线以逐分片处理数据,避免内存与磁盘的耗尽风险。此外,保持数据的时间维度以支持跨年度语言使用分析,以及实现高效的数据组织与查询接口,使得研究者能够灵活访问特定爬取时段或语言单元,均是数据集构建中需克服的关键技术难题。
常用场景
经典使用场景
在自然语言处理领域,大规模文本语料库是训练语言模型的基础资源。FineWeb-NLP数据集通过提供超过77亿条经过语言感知分割的句子和段落,为研究者构建了高质量的预训练数据源。该数据集最经典的使用场景在于为大型语言模型(如GPT、BERT等)的预训练阶段提供丰富、多样且经过清洗的英文文本,支持模型学习词汇、句法和语义知识。其句子和段落级别的结构化数据使得模型能够捕捉连贯的上下文信息,而词频和n-gram统计则为语言建模中的概率估计提供了可靠依据。
解决学术问题
FineWeb-NLP数据集解决了自然语言处理研究中数据稀缺与质量不均的常见问题。通过从Common Crawl中提取并过滤高质量文本,该数据集为语言模型训练提供了大规模、低噪声的语料,有效缓解了模型因数据偏差导致的性能瓶颈。其按时间戳(dump字段)组织的数据结构支持语言演变分析,使研究者能够追踪词汇使用趋势和语义变化。此外,分片(shard)级别的频率统计避免了全局聚合的内存压力,为词频分布、语言模型困惑度评估等研究提供了高效的计算基础。
衍生相关工作
FineWeb-NLP数据集衍生了多项经典研究工作。基于其高质量句子数据,研究者开发了改进的掩码语言模型(如RoBERTa的变体),在GLUE等基准测试中取得了显著提升。利用时间戳信息,学术界开展了语言动态分析,揭示了网络用语随时间的演变规律。此外,该数据集的词频和n-gram统计支撑了词汇嵌入优化研究,促进了Word2Vec和GloVe等模型的迭代。这些工作不仅推动了语言模型技术的发展,也为计算语言学提供了丰富的实证基础。
以上内容由遇见数据集搜集并总结生成



