wikidata-sorted-nquads-and-diffs
收藏Wikidata Sorted N-Quads & RDF Patches (truthy-BETA) 数据集概述
基本信息
- 数据集名称: Wikidata Sorted N-Quads & RDF Patches (truthy-BETA)
- 发布平台: Hugging Face Hub
- 许可证: CC0 1.0(公共领域)
- 数据来源: Wikidata 数据转储
数据集内容与格式
- 核心内容:排序后的 Wikidata N-Triples 转储文件(真实陈述)以及排序后的 RDF 补丁文件。
- 数据格式:
- 基础数据:N-Triples (
.nt),使用LC_ALL=C sort -u进行字节排序。 - 补丁格式:RDF Patch,行首以
A(添加)或D(删除)为前缀,同样经过字节排序。
- 基础数据:N-Triples (
- 压缩方式:所有文件均使用 bzip2 (
.bz2) 压缩。 - 数据系列:
truthy-BETA(物化的真实陈述,实验性/处理后的变体)。 - 时间覆盖范围:自 2025-05-30 起,提供每周快照。
数据集目的
- 概念验证:为轻量级 RDF 补丁基础设施提供概念验证,展示纯文本、仅依赖 POSIX 工具的系统处理 Wikidata 规模数据的可行性。
- 研究资源:
- 支持时间推移/趋势分析。
- 用作知识图谱演化模型的训练数据。
- 支持本地三元组存储同步。
- 适用于历史 Wikidata 研究、变更检测或任何受益于版本化 RDF 数据的项目。
文件结构与存储
-
基础结构示例:
truthy-BETA/ └── 2025/ ├── diffs/ # 存放 RDF 补丁文件 └── dumps/ # 存放基础排序后的 N-Quads 转储文件
-
存储效率:
- 一个完整的真实陈述 N-Quads 转储约 40 GB(压缩后)。
- 半年的补丁文件约 2.8–4 GB(约等于一个完整转储的 10%)。
配套工具
- 工具名称:nqpatch-posix
- 工具地址:https://github.com/Scaseco/nqpatch-posix
- 特点:纯 POSIX shell 脚本,无需编译,完全流式处理,支持通过 zutils 或 lbzip2 处理 bzip2/gzip/xz/zstd 压缩格式。
- 性能示例:在中等硬件上,修补一个约 40 GB 的完整真实陈述转储约需 1 小时。
使用限制
- 补丁是基于特定基础文件的:必须应用于完全匹配的排序基础转储文件。
- 需要一致的排序(
LC_ALL=C)和精确的空格/行尾。 - 文件较大,强烈建议使用流式处理管道(如
lbzcat,zcat等)。
引用信息
-
本数据集引用: bibtex @misc{wikidata-sorted-nquads-and-diffs, author = {Claus Stadler}, title = {Wikidata Sorted N-Quads and Diffs}, year = {2026}, url = {https://huggingface.co/datasets/Aklakan/wikidata-sorted-nquads-and-diffs}, note = {Sorted N-Quads dumps + POSIX-compatible RDF patches} }
-
原始 Wikidata 项目引用: bibtex @article{vrandevcic2014wikidata, title={Wikidata: a free collaborative knowledgebase}, author={Vrande{v{c}}i{c}, Denny and Kr{"o}tzsch, Markus}, journal={Communications of the ACM}, volume={57}, number={10}, pages={78--85}, year={2014}, publisher={ACM New York, NY, USA} }




