finewiki-nl-30-to-24k-tokens
收藏Hugging Face2025-12-18 更新2025-12-19 收录
下载链接:
https://huggingface.co/datasets/BramVanroy/finewiki-nl-30-to-24k-tokens
下载链接
链接失效反馈官方服务:
资源简介:
FineWiki-NL数据集是原始数据集的过滤版本,筛选标准包括文本长度在30到24000个空白分隔的标记之间,并且包含三个或更多'句子'(定义为句号后跟空格)。数据集包含多种元数据,如文本、ID、维基名称、页面ID、标题、URL、修改日期、语言、维基数据ID、HTML字节数、维基文本、版本、信息框和是否包含数学内容。数据集分为一个'train'分割,并指定了字节数和示例数。README还提供了用于重现过滤过程的Python脚本。
创建时间:
2025-12-15
原始信息汇总
数据集概述
基本信息
- 数据集名称: finewiki-nl-30-to-24k-tokens
- 来源: 基于 FineWiki-NL 数据集过滤生成
- 语言: 荷兰语 (nl)
- 数据量: 821,467 个示例
- 数据集大小: 4,441,916,796 字节 (约 4.44 GB)
- 下载大小: 4,056,724,247 字节 (约 4.06 GB)
- 数据格式: 单训练集 (train)
数据特征
数据集包含以下字段:
text: 文本内容 (字符串)id: 标识符 (字符串)wikiname: 维基名称 (字符串)page_id: 页面ID (整型)title: 标题 (字符串)url: 页面URL (字符串)date_modified: 修改日期 (字符串)in_language: 语言代码 (字符串)wikidata_id: Wikidata标识符 (字符串)bytes_html: HTML字节数 (整型)wikitext: 维基文本 (字符串)version: 版本号 (整型)infoboxes: 信息框内容 (字符串)has_math: 是否包含数学公式 (布尔型)
过滤条件
数据集通过以下条件从原始 FineWiki-NL 数据集中筛选:
- 句子数量: 至少包含三个句子 (以 ". " 分隔)
- 词元长度: 文本包含 30 到 24,000 个以空格分隔的词元
- 字符长度: 文本长度在 200 到 72,000 个字符之间
- 排除存根: 排除维基文本中包含 "{{beginnetje" 模式的存根页面
配置信息
- 配置名称: default
- 数据文件路径: data/train-*
- 数据分割: 仅包含训练集
搜集汇总
数据集介绍

构建方式
在维基百科知识库的构建领域,finewiki-nl-30-to-24k-tokens数据集源自FineWiki-NL的荷兰语子集,通过精心设计的过滤流程提炼而成。其构建过程首先加载原始数据集,随后应用多维度筛选标准:文本必须包含至少三个完整句子,通过统计句点后接空格的数量实现;同时,文本的词汇量需严格控制在30至24,000个以空格分隔的词汇之间,且字符长度介于200至72,000字符,以此排除过短或过长的条目。此外,构建过程还移除了特定类型的存根页面,例如标记为“beginnetje”的起始模板,确保内容的完整性与实质性。
特点
该数据集在自然语言处理领域展现出鲜明的结构化特征,其核心在于文本长度的精准控制与内容质量的严格把关。所有条目均经过句子数量、词汇量及字符长度的三重筛选,有效过滤了碎片化或冗余信息,从而形成了规模适中、内容连贯的文本集合。数据集保留了丰富的元数据信息,包括页面标题、语言标识、修改日期及维基数据标识符等,为多任务学习与细粒度分析提供了坚实基础。这种设计使得数据集特别适用于训练语言模型或进行文本生成研究,兼顾了数据的多样性与一致性。
使用方法
在学术研究与工程实践中,该数据集的使用方法直观而高效。研究人员可通过Hugging Face的datasets库直接加载数据集,利用其标准化的数据分割与特征结构进行模型训练或评估。数据集适用于多种自然语言处理任务,如文本分类、语言建模或机器翻译,其均衡的文本长度分布有助于优化模型对长距离依赖关系的捕捉能力。用户可进一步结合元数据字段进行跨语言或时序分析,探索文本内容与外部信息的关联性,从而深化对荷兰语维基百科内容演变的理解。
背景与挑战
背景概述
在自然语言处理领域,大规模、高质量的文本数据集对于训练先进的模型至关重要。FineWiki-NL-30-to-24k-tokens数据集基于荷兰语维基百科(FineWiki-NL)构建,由HuggingFace社区的研究人员于近期创建,旨在提供经过精细筛选的荷兰语文本资源。该数据集的核心研究问题聚焦于如何从原始维基百科内容中提取结构良好、长度适中且信息丰富的文本片段,以支持荷兰语的语言模型预训练、文本生成及语义分析等任务。通过对文本长度和句子数量的严格过滤,该数据集为低资源语言处理提供了高质量的数据基础,对推动荷兰语自然语言处理技术的发展具有积极影响。
当前挑战
该数据集旨在解决荷兰语文本处理中数据质量与规模平衡的挑战。原始维基百科内容包含大量短文本、存根页面及非结构化信息,直接使用可能导致模型训练效率低下或语义理解偏差。构建过程中,研究人员面临多重挑战:首先,需设计有效的过滤规则,以准确识别并移除不符合要求的文本,如通过句子数量、单词数及字符长度阈值来筛选;其次,需处理维基百科特有的模板标记(如{{beginnetje}})以避免纳入低质量概述页面;此外,确保过滤过程在大规模数据上高效执行,同时保持文本的完整性与语言规范性,也是技术实现上的关键难点。
常用场景
经典使用场景
在自然语言处理领域,大规模语料库是训练语言模型的基础资源。FineWiki-NL-30-to-24k-tokens数据集通过筛选荷兰语维基百科条目,保留了文本长度在30至24,000个标记之间且包含至少三个完整句子的高质量文档。这一精心设计的过滤机制使其成为训练和评估荷兰语语言模型的理想选择,尤其适用于需要连贯长文本的上下文学习任务,为研究人员提供了结构化和标准化的数据支持。
解决学术问题
该数据集有效解决了低资源语言处理中高质量训练数据稀缺的学术难题。通过去除短小存根和过度冗长的条目,它确保了文本内容的完整性和信息密度,为荷兰语语言模型的预训练与微调提供了可靠基准。其标准化长度范围有助于控制计算复杂度,同时维持语义连贯性,显著提升了跨语言自然语言处理研究的可复现性和比较公平性,推动了小语种NLP技术的发展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其训练的开源荷兰语BERT变体在GLUE风格基准测试中展现了优越性能;一些研究利用其长度标准化特性探索了长文本编码器的效率优化方法。此外,该数据集常作为多语言模型对比实验的组成部分,为评估模型在低资源语言上的泛化能力提供关键数据,启发了跨语言迁移学习与领域自适应技术的创新方向。
以上内容由遇见数据集搜集并总结生成



