five

wikidata-sorted-nquads-and-diffs

收藏
Hugging Face2026-04-06 更新2026-04-07 收录
下载链接:
https://huggingface.co/datasets/Aklakan/wikidata-sorted-nquads-and-diffs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为'Wikidata Sorted N-Quads & RDF Patches (truthy-BETA)',提供了经过字节排序的Wikidata N-Triples(真实陈述)以及排序后的RDF补丁文件(RDF-Patch格式)。所有数据均为纯文本格式,支持流式处理,并使用bzip2进行压缩。数据集格式包括排序的N-Triples(.nt)和RDF补丁(前缀为'A'表示添加,'D'表示删除),时间覆盖范围从2025年5月30日开始,每周生成一次快照。存储效率方面,半年的补丁数据约为2.8-4 GB,相当于一个完整真实转储文件(约40 GB)的10%。该数据集旨在展示一个轻量级的RDF补丁基础设施,并作为研究资源,支持时间推移分析、训练数据生成和本地三元组存储同步。数据集遵循CC0 / Public Domain许可,适用于历史Wikidata研究、变化检测等需要版本化RDF数据的项目。
创建时间:
2026-04-05
原始信息汇总

Wikidata Sorted N-Quads & RDF Patches (truthy-BETA) 数据集概述

基本信息

  • 数据集名称: Wikidata Sorted N-Quads & RDF Patches (truthy-BETA)
  • 发布平台: Hugging Face Hub
  • 许可证: CC0 1.0(公共领域)
  • 数据来源: Wikidata 数据转储

数据集内容与格式

  • 核心内容:排序后的 Wikidata N-Triples 转储文件(真实陈述)以及排序后的 RDF 补丁文件。
  • 数据格式
    • 基础数据:N-Triples (.nt),使用 LC_ALL=C sort -u 进行字节排序。
    • 补丁格式:RDF Patch,行首以 A(添加)或 D(删除)为前缀,同样经过字节排序。
  • 压缩方式:所有文件均使用 bzip2 (.bz2) 压缩。
  • 数据系列truthy-BETA(物化的真实陈述,实验性/处理后的变体)。
  • 时间覆盖范围:自 2025-05-30 起,提供每周快照。

数据集目的

  1. 概念验证:为轻量级 RDF 补丁基础设施提供概念验证,展示纯文本、仅依赖 POSIX 工具的系统处理 Wikidata 规模数据的可行性。
  2. 研究资源
    • 支持时间推移/趋势分析。
    • 用作知识图谱演化模型的训练数据。
    • 支持本地三元组存储同步。
    • 适用于历史 Wikidata 研究、变更检测或任何受益于版本化 RDF 数据的项目。

文件结构与存储

  • 基础结构示例

    truthy-BETA/ └── 2025/ ├── diffs/ # 存放 RDF 补丁文件 └── dumps/ # 存放基础排序后的 N-Quads 转储文件

  • 存储效率

    • 一个完整的真实陈述 N-Quads 转储约 40 GB(压缩后)。
    • 半年的补丁文件约 2.8–4 GB(约等于一个完整转储的 10%)。

配套工具

  • 工具名称:nqpatch-posix
  • 工具地址:https://github.com/Scaseco/nqpatch-posix
  • 特点:纯 POSIX shell 脚本,无需编译,完全流式处理,支持通过 zutils 或 lbzip2 处理 bzip2/gzip/xz/zstd 压缩格式。
  • 性能示例:在中等硬件上,修补一个约 40 GB 的完整真实陈述转储约需 1 小时。

使用限制

  • 补丁是基于特定基础文件的:必须应用于完全匹配的排序基础转储文件。
  • 需要一致的排序(LC_ALL=C)和精确的空格/行尾。
  • 文件较大,强烈建议使用流式处理管道(如 lbzcat, zcat 等)。

引用信息

  • 本数据集引用: bibtex @misc{wikidata-sorted-nquads-and-diffs, author = {Claus Stadler}, title = {Wikidata Sorted N-Quads and Diffs}, year = {2026}, url = {https://huggingface.co/datasets/Aklakan/wikidata-sorted-nquads-and-diffs}, note = {Sorted N-Quads dumps + POSIX-compatible RDF patches} }

  • 原始 Wikidata 项目引用: bibtex @article{vrandevcic2014wikidata, title={Wikidata: a free collaborative knowledgebase}, author={Vrande{v{c}}i{c}, Denny and Kr{"o}tzsch, Markus}, journal={Communications of the ACM}, volume={57}, number={10}, pages={78--85}, year={2014}, publisher={ACM New York, NY, USA} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以Wikidata知识库的truthy-BETA系列为基础,通过系统化的数据处理流程构建而成。原始数据来源于Wikidata每周发布的完整N-Triples快照,这些快照经过LC_ALL=C排序与去重处理,形成规范化的排序N-Quads文件。在此基础上,利用纯POSIX工具链(如awk、sort、comm)生成对应的RDF补丁文件,每条补丁以'A'(添加)或'D'(删除)为前缀,并同样进行字节级排序。所有文件均采用bzip2压缩格式存储,确保了数据的高效组织与流式处理能力,从而构建出一套完整的、支持增量更新的知识图谱时序序列。
特点
本数据集的核心特征在于其轻量化的增量更新机制与严格的标准兼容性。数据以纯文本形式存储,遵循N-Triples与RDF-Patch标准格式,具备良好的可读性与互操作性。补丁文件体积精巧,半年累积的更新数据仅相当于单次完整快照的约10%,极大降低了存储与传输开销。同时,数据集采用完全基于POSIX工具链的设计理念,无需依赖数据库或定制二进制程序,即可实现流式处理与高效合并,为知识图谱的时序分析与版本追踪提供了高度灵活且可复现的研究基础。
使用方法
使用该数据集时,研究者可借助配套工具nqpatch-posix进行灵活操作。基础应用场景包括将特定补丁文件应用于对应的排序基础快照,以生成更新后的知识图谱版本;亦可先将多个连续补丁合并为单一文件,再统一应用,从而优化处理流程。操作全程支持流式管道,配合lbzcat等工具可实现压缩文件的直接读写。该数据集适用于知识演化分析、模型训练数据生成、本地三元组存储同步等多种任务,用户通过简单的命令行脚本即可构建自定义的时序数据流水线,满足对Wikidata动态变化进行高效追踪与研究的需要。
背景与挑战
背景概述
在知识图谱与语义网研究领域,大规模知识库的持续更新与高效管理一直是核心议题。Wikidata作为全球最大的开放式协作知识库,其数据规模庞大且动态演变,为研究者带来了数据新鲜度与处理效率的双重挑战。在此背景下,由Claus Stadler等人于2026年创建的wikidata-sorted-nquads-and-diffs数据集应运而生。该数据集旨在提供一种轻量级、完全基于文本的RDF补丁基础设施,通过发布经过字节排序的Wikidata真值N-Triples数据及相应的RDF补丁文件,支持知识图谱的增量更新与时间序列分析。这一创新不仅验证了仅使用POSIX工具处理海量RDF数据的可行性,而且严格遵循FAIR数据原则,为知识演化分析、模型训练及本地知识库同步等研究提供了关键资源,显著提升了动态知识图谱的可访问性与可重用性。
当前挑战
该数据集致力于解决大规模动态知识图谱的高效增量更新与版本管理问题。其核心挑战在于如何设计一种既保持数据一致性又能最小化存储与带宽开销的补丁机制。在构建过程中,技术团队面临多重挑战:首先,确保补丁文件与基础数据dump的精确匹配,要求严格的字节级排序与空白字符一致性,任何偏差都可能导致补丁应用失败。其次,处理每周约40GB的原始真值数据dump,并生成仅占其10%体积的补丁文件,需要在压缩算法与流式处理管线之间取得平衡,以实现适中的处理性能。此外,维持纯文本格式的完全流式处理能力,依赖标准POSIX工具链,对脚本的健壮性与跨平台兼容性提出了极高要求。这些挑战共同构成了该数据集在实现轻量级、可扩展知识更新基础设施道路上的关键障碍。
常用场景
解决学术问题
该数据集有效解决了知识图谱研究中数据持续更新带来的技术挑战。传统上,处理维基数据等大规模知识库需要频繁下载完整快照,导致存储冗余与计算效率低下。本资源通过提供基于POSIX工具的轻量级RDF补丁基础设施,实现了知识图谱的增量同步与版本管理,使研究者能够专注于知识演变模式挖掘、实体动态建模等核心问题。它遵循FAIR数据原则,提升了数据的可查找性、可访问性与互操作性,为时间序列知识分析、变化检测等研究方向提供了可靠基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在知识图谱增量处理与时间序列分析工具链的开发。例如,配套工具库nqpatch-posix作为纯POSIX脚本实现,提供了补丁创建、合并与应用的全流程解决方案,成为轻量级RDF版本控制系统的参考实现。在此基础上,研究者进一步探索了基于补丁的知识演变可视化、实体编辑模式挖掘等方法。同时,该数据集也促进了跨领域研究,如结合机器学习算法预测知识图谱未来状态,或用于评估知识库一致性维护策略,推动了语义网与数据管理社区的协作创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作