five

Fineweb-Tiny

收藏
Hugging Face2026-03-30 更新2026-03-31 收录
下载链接:
https://huggingface.co/datasets/ray0rf1re/Fineweb-Tiny
下载链接
链接失效反馈
官方服务:
资源简介:
Fineweb-Tiny 是从 `nampdn-ai/mini-fineweb` 数据集中精心筛选出的高质量子集。该数据集通过流式处理原始数据并基于严格的质量评分算法对数据块进行排序而创建。评分标准主要考虑:1) 高语言分数(如果上游提取提供);2) 最佳文档长度(避免过短片段或过长未格式化内容);3) 适合小型语言模型(SLMs)和大语言模型(LLMs)预训练的结构连贯性。Fineweb-Tiny 包含了原始数据中绝对最佳的 72.9 GB(压缩 Parquet 格式)数据,剔除了质量较低的后 50% 数据以确保文本的高密度和实用性。数据集采用 Open Data Commons Attribution License (ODC-By) v1.0 许可,与上游 Fineweb mini 的许可约束完全一致。
创建时间:
2026-03-30
原始信息汇总

Fineweb-Tiny 数据集概述

数据集描述

Fineweb-Tiny 是一个从 nampdn-ai/mini-fineweb 数据集中提取并经过高度筛选的优质子集。

数据集来源

该数据集是从源数据集 https://huggingface.co/datasets/nampdn-ai/mini-fineweb 中程序化提取创建的。

筛选方法

数据集的创建通过流式读取原始数据集,并依据严格的质量评分算法对数据块进行排序完成。其筛选启发式规则主要侧重以下几点:

  1. language_score(如果上游提取提供了此分数)。
  2. 最优的文档长度(对异常短的片段和过长的、无格式的数据转储进行惩罚)。
  3. 适合小型语言模型和大语言模型预训练的强结构连贯性。

数据规模与质量

Fineweb-Tiny 包含了原始数据源中绝对最佳的 72.9 GB(压缩后的 Parquet 格式)数据。它从数据流中剔除了质量较低的后 50% 的数据,以确保文本的密集性和高实用性。

语言

  • 英语

许可协议

该数据集根据 Open Data Commons Attribution License (ODC-By) v1.0 发布,以完全匹配上游 Fineweb mini 数据集的许可约束。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量的训练数据对于模型性能至关重要。Fineweb-Tiny的构建采用了程序化筛选机制,通过流式处理原始数据集并应用严格的质量评分算法对文本块进行排序。该算法优先考虑语言评分较高的内容,同时优化文档长度,避免过短片段或冗长无格式的文本,确保结构连贯性,最终从原始数据中精选出压缩后约72.9GB的优质子集,剔除了质量较低的后50%数据,从而为小型及大型语言模型的预训练提供了密集且高效用的文本资源。
特点
作为Fineweb数据集的精炼版本,Fineweb-Tiny展现了显著的数据纯度与实用性。其核心特点在于通过算法筛选保留了结构连贯、语言质量卓越的文本,这些文本经过长度优化,避免了数据噪声,形成了高度集中的训练素材。该数据集专门针对语言模型预训练设计,尤其适合资源受限环境下的模型开发,确保了数据在有限体积内蕴含最大化的信息价值,为研究者提供了可靠且高效的基础语料库。
使用方法
在模型训练实践中,Fineweb-Tiny可直接应用于语言模型的预训练或微调阶段。用户可通过HuggingFace数据集库加载该数据集,利用其Parquet格式进行高效的数据读取与处理。鉴于其经过严格筛选的高质量特性,建议在训练小型或大型语言模型时作为核心语料使用,以提升模型的语言理解与生成能力。同时,使用者需遵循ODC-By许可协议,确保在合规范围内开展研究与开发工作。
背景与挑战
背景概述
在自然语言处理领域,高质量文本数据的获取与筛选是推动模型性能提升的核心基础。Fineweb-Tiny数据集作为从mini-fineweb中提取的精选子集,由nampdn-ai团队于近期构建,旨在为小型语言模型和大型语言模型的预训练提供结构连贯、内容优质的英文文本资源。该数据集通过程序化流式处理与严格的质量评分算法,从原始数据中筛选出最优的72.9GB压缩文本,聚焦于提升数据效用密度,从而支持更高效的模型训练与更精准的语言理解任务。
当前挑战
Fineweb-Tiny致力于应对语言模型预训练中数据质量参差不齐的挑战,其核心在于从海量网络文本中识别并保留高语言得分、适宜长度与结构连贯的片段,以优化模型的知识吸收效率。在构建过程中,团队需克服自动化质量评估的复杂性,包括设计兼顾语言规范性、文档长度与格式一致性的启发式评分算法,并有效剔除低质量数据,确保子集在压缩规模下仍能维持高信息密度与训练稳定性。
常用场景
经典使用场景
在自然语言处理领域,高质量文本数据是训练高效语言模型的基础。Fineweb-Tiny作为精心筛选的英文文本子集,其经典使用场景集中于小型语言模型(SLMs)和大语言模型(LLMs)的预训练阶段。通过算法优先选择语言评分高、文档长度适中且结构连贯的文本块,该数据集为模型提供了密集且实用的训练素材,有效支持模型在有限数据规模下学习丰富的语言模式和知识表示。
衍生相关工作
围绕Fineweb-Tiny,衍生出了一系列专注于数据质量评估与筛选的研究工作。这些工作借鉴其启发式评分方法,进一步开发了更精细的文本过滤算法和自动化数据清洗流程。同时,该数据集也促进了针对小型语言模型的高效预训练策略探索,例如课程学习或动态数据采样技术,为构建轻量级、高性能的语言模型生态系统提供了重要参考。
数据集最近研究
最新研究方向
在自然语言处理领域,高质量数据集的构建已成为推动模型性能提升的核心驱动力。Fineweb-Tiny作为从大规模网络文本中精炼的优质子集,其前沿研究聚焦于通过算法驱动的数据筛选机制优化预训练语料质量。当前热点方向包括开发更精细的评分启发式方法,以平衡语言得分、文档长度与结构连贯性,从而适配小型语言模型的高效训练需求。这一趋势显著影响了低资源环境下模型的泛化能力与推理效率,为数据为中心的人工智能研究提供了可复现的基准范例,促进了开源社区在数据治理与质量评估方面的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作