openbmb/factnet_factstatements

Name: openbmb/factnet_factstatements
Creator: openbmb
Published: 2026-05-07 00:05:00
License: 暂无描述

Hugging Face2026-05-07 更新2026-03-21 收录

下载链接：

https://hf-mirror.com/datasets/openbmb/factnet_factstatements

下载链接

链接失效反馈

官方服务：

资源简介：

FactStatement数据集是FactNet知识图谱的基础层，FactNet是一个跨语言、多层的知识图谱。FactStatements是从Wikidata语句直接映射的语言中立、原子性的事实单元，构成了知识图谱的核心构建块。数据集包含parquet文件，具有核心ID、主题实体QID、属性PID、值、标准化值等多个关键字段。这些设计用于语言中立的事实表示，可通过FactSense层进行语言实现，并通过FactSynset层进行语义分组。数据集基于Wikidata，使用CC0许可证。

FactStatement is the foundational layer of FactNet, a cross-lingual, multi-layered fact knowledge graph. FactStatements are language-neutral, atomic fact units directly mapped from Wikidata statements, forming the core building blocks of the knowledge graph. The dataset contains parquet files with key fields such as core_id, subject_qid, property_pid, value, normalized_value, etc. FactStatements are designed to be language-neutral representations of facts that can be linguistically realized through the FactSense layer and semantically grouped through the FactSynset layer. The dataset is derived from Wikidata and is available under the CC0 license.

提供机构：

openbmb

搜集汇总

数据集介绍

构建方式

FactStatement数据集是FactNet知识图谱的基石层，其构建过程紧密依托维基数据（Wikidata）的结构化事实体系。通过对Wikidata中每一条陈述进行语言无关的原子化映射，将实体-属性-值三元组及其限定信息（如时间、地点）与来源证据提取为独立的事实单元。每个事实单元由唯一标识符`core_id`标记，并经过标准化处理，生成`normalized_value`与`claim_hash`，以实现跨语言、跨表述的一致性表达，同时赋予基于多种信号融合的置信度评分。

特点

该数据集最显著的特点在于其语言中立的原子性设计，每个FactStatement独立代表一条不可再分的事实单元，摆脱了自然语言表述的束缚。其结构化字段囊括实体QID、属性PID、限定符与引用信息，为事实的精准溯源与逻辑推理提供坚实基础。此外，通过置信度评分与维基等级（preferred/normal/deprecated）的标注，数据集有效区分了事实的可靠程度与使用优先级，支持高质量的知识筛选与利用。

使用方法

FactStatements作为FactNet的底层构建块，主要用于跨语言事实表示与知识图谱融合任务。用户可通过加载parquet文件，解析`subject_qid`、`property_pid`及`normalized_value`等字段，直接提取原子事实以支撑实体链接、关系抽取或事实验证等应用。进一步地，其设计支持通过FactSense层实现语言化表达，并通过FactSynset层进行语义聚合，从而构建可扩展的多层知识结构。推荐参考配套论文与GitHub仓库获取详细的调用示例与处理流程。

背景与挑战

背景概述

FactStatement数据集是FactNet知识图谱的核心基础层，由清华大学等机构的研究人员于2026年创建，旨在构建跨语言、多层次的语义事实知识库。该数据集从Wikidata中提取原子化事实陈述，以语言中立的形式结构化存储，每个事实单元通过主体、属性和标准化值唯一标识，并附加置信度评分和引用信息。FactStatement的发布为多语言事实知识推理、自然语言理解中的事实核验以及大规模知识驱动的AI系统提供了结构化基础资源，在知识图谱与自然语言处理交叉领域具有显著影响力。

当前挑战

FactStatement数据集面临的核心挑战包括：1)知识冲突，Wikidata中同一实体的事实陈述常因来源差异或时间演变产生矛盾，需要构建统一的置信度评估与冲突消解机制；2)多语言覆盖的稀疏性，事实陈述在非英语语言中的完整性与准确性不足，难以支撑均衡的多语言事实推理；3)动态更新与时效性，实时吸收Wikidata增量变化并维持数据一致性，对构建和迭代流程提出了工程化挑战；4)实体与属性对齐中的歧义，跨语言表述差异导致实体链接和属性映射存在偏差，影响事实陈述的原子化精确度。

常用场景

经典使用场景

FactStatements 数据集作为 FactNet 知识图谱的基础层，其核心应用场景在于为多语言知识密集型自然语言处理任务提供原子化的事实单元。研究者利用该数据集中的标准化事实陈述（subject|property|normalized_value 三元组），构建跨语言的事实检索与验证系统。由于每个事实陈述均附带置信度分数及来源引用，该数据集特别适用于少样本或零样本场景下的知识增强，例如在多语言问答系统中，通过定位核心实体及其属性关系来支撑精准答案的生成。

解决学术问题

FactStatements 数据集有效解决了学术界长期面临的多源知识融合与语言中立性难题。传统的知识图谱常受限于单一语言或非规范化表述，导致事实在跨语言迁移时出现语义失真。该数据集通过 Wikidata 结构化实体映射与标准化哈希算法，消除了语言和格式的歧义，为知识表示学习、多跳推理以及事实冲突检测提供了可靠基准。其意义在于推动了从单语言事实底座向全球性、跨语言知识统一表示的研究范式转变，显著提升了模型在信息抽取和知识补全任务中的泛化能力。

衍生相关工作

基于 FactStatements 数据集衍生出多项经典工作，其中最具代表性的是 FactNet 架构中上层 FactSense 和 FactSynset 层的构建依赖。FactSense 利用该层数据进行事实的语言化生成，实现了从抽象三元组到多语种自然语言表达的映射。此外，研究者借用其标准化哈希结构开发了事实消歧与冲突消解算法，并在 ACL、EMNLP 等顶级会议上发表了关于跨语言知识图谱嵌入与事实可靠性评估的论文。这些衍生工作共同丰富了事实知识在语义解析、多语言预训练模型微调等方向的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集