npfl147
收藏Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/ufal/npfl147
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含cs(捷克语)、de(德语)、en(英语)、ga(爱尔兰语)四种语言的维基百科数据集。每个语言的数据集都包含文本内容、ID、维基名称、页面ID、标题、URL、修改日期、语言、维基数据ID、HTML字节数、维基文本、版本、信息框、是否含有数学公式等特征。每个数据集都只有一个训练集split,包含10000个示例。
提供机构:
Institute of Formal and Applied Linguistics, Charles University, Prague
创建时间:
2025-10-30
原始信息汇总
NPFL147 数据集概述
基本信息
- 许可证: CC BY-SA 4.0
- 数据集地址: https://huggingface.co/datasets/ufal/npfl147
配置信息
数据集包含4种语言配置:
- cs: 捷克语
- de: 德语
- en: 英语
- ga: 爱尔兰语
数据结构
特征字段
所有配置包含相同的特征字段:
- text: 文本内容
- id: 唯一标识符
- wikiname: 维基名称
- page_id: 页面ID
- title: 标题
- url: 链接地址
- date_modified: 修改日期
- in_language: 语言标识
- wikidata_id: 维基数据ID
- bytes_html: HTML字节数
- wikitext: 维基文本
- version: 版本号
- infoboxes: 信息框
- has_math: 是否包含数学公式
数据规模
| 语言 | 训练集样本数 | 训练集大小 | 下载大小 | 数据集大小 |
|---|---|---|---|---|
| cs | 10,000 | 116,947,253字节 | 64,556,458字节 | 116,947,253字节 |
| de | 10,000 | 143,607,557字节 | 72,445,185字节 | 143,607,557字节 |
| en | 10,000 | 168,919,850字节 | 80,860,288字节 | 168,919,850字节 |
| ga | 10,000 | 41,562,619字节 | 21,834,078字节 | 41,562,619字节 |
数据格式
- 所有配置仅包含训练集
- 数据文件路径格式:
{语言代码}/train-*
搜集汇总
数据集介绍

构建方式
在跨语言知识表示研究领域,npfl147数据集通过系统化采集维基百科多语言版本构建而成。该数据集涵盖捷克语、德语、英语和爱尔兰语四种语言,每个语言配置均包含一万条训练样本,从原始网页内容中提取结构化特征。构建过程保留了完整的文本语义单元与元数据信息,包括页面标识符、标题、URL链接、修改日期等关键属性,同时整合了维基文本格式与信息框等富文本元素,为跨语言分析提供标准化数据基础。
特点
该数据集展现出显著的多模态特征,不仅包含原始文本内容,还囊括了丰富的结构化元数据。每个样本均配备完整的语言标识体系,通过wikidata_id实现跨语言实体对齐,而has_math字段则标记了数学公式的存在状态。数据集采用统一的特征架构设计,确保不同语言版本间的结构一致性,其文本规模从爱尔兰语的4150万字节到英语的1.68亿字节不等,呈现出语言使用频率的自然分布特征。
使用方法
基于该数据集的多语言配置特性,研究者可通过指定语言代码直接加载相应语种的训练数据。使用过程中可充分利用其丰富的特征字段进行跨语言对比分析,如通过wikidata_id实现多语言实体链接,或利用infoboxes字段进行结构化知识抽取。数据集的标准化格式支持直接接入主流自然语言处理框架,便于开展机器翻译、跨语言检索等任务的模型训练与评估。
背景与挑战
背景概述
npfl147数据集作为多语言维基百科文本资源的集合,其构建源于自然语言处理领域对跨语言知识获取与理解的迫切需求。该数据集由学术研究机构基于维基百科平台内容开发,涵盖捷克语、德语、英语及爱尔兰语四种语言版本,每个语言配置包含一万篇经过结构化处理的文档。其核心研究问题聚焦于多语言文本表征学习与跨语言信息检索,通过提供标准化的文本字段、元数据及数学内容标记,为机器翻译、知识图谱构建等任务提供了重要基础。该资源显著推动了低资源语言处理技术的发展,并在多模态自然语言理解研究中展现出广泛的应用潜力。
当前挑战
在解决多语言文本理解这一领域问题时,npfl147需应对语言资源不均衡带来的表征偏差挑战,尤其体现在爱尔兰语等低资源语言的语义建模困难。数据构建过程中,维基百科原始数据的异构性导致结构化对齐复杂度高,不同语言版本的Infoboxes字段与数学公式标记需要跨语言一致性校验。同时,HTML到纯文本的转换过程中需保留语义完整性,而多语言版权许可的合规性要求进一步增加了数据清洗与集成的技术难度。
常用场景
经典使用场景
在自然语言处理领域,npfl147数据集以其多语言维基百科文本资源而著称,为跨语言模型预训练提供了标准化语料。该数据集包含捷克语、德语、英语和爱尔兰语四种语言的文本,每个语种均涵盖一万条条目,其结构化特征如wikitext和infoboxes支持语义解析任务,常被用于构建多语言词嵌入和跨语言检索系统的基准测试。
解决学术问题
该数据集有效缓解了低资源语言研究中的语料匮乏问题,通过提供爱尔兰语等小众语言的标准化文本,推动了语言模型在词汇稀疏场景下的泛化能力研究。其丰富的元数据(如wikidata_id和in_language字段)为跨语言实体链接、知识图谱对齐等任务提供了实验基础,显著提升了多语言NLP模型的迁移学习效果与可解释性。
衍生相关工作
该数据集催生了多项跨语言表征学习的经典研究,例如基于其英语-捷克语对的XLM-R预训练模型优化,以及利用wikitext字段的语义解析框架WikiNet。后续工作如跨语言问答系统XQA和低资源语言生成模型mT5,均通过扩展该数据集的元数据应用,推动了多模态知识推理技术的发展。
以上内容由遇见数据集搜集并总结生成



