loka
收藏Hugging Face2026-05-11 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/EmmaLeonhart/loka
下载链接
链接失效反馈官方服务:
资源简介:
Loka数据集是一个用于神经符号世界模型训练和评估的综合资源,包含一个经过处理的Wikidata知识图谱子集以及预训练的Transformer模型检查点。其核心是一个RDF-star三元组语料库,其中Wikidata的实体ID和属性ID已被替换为英文标签,字面量中的语言标签和数据类型后缀被剥离,形成纯文本格式的三元组(主语、谓语、宾语)。语料库构建时筛选保留了具有语义内容的实体链接、字符串、数值、日期和单语文本,而丢弃了外部标识符、URL、地理坐标等可能引入噪声的数据类型。数据集规模在10万到100万之间。此外,数据集提供了多个版本的预训练模型检查点,这些模型采用统一的44.5M参数角色感知掩码Transformer架构,使用50K大小的BPE词汇表。每个模型版本还输出生成的推理三元组文件,这些文件采用RDF-star格式,并附带了详细的溯源元数据,包括生成标志、模型版本、置信度以及推理所依据的上下文三元组引用,确保了模型输出的可审计性。该数据集适用于知识图谱补全、神经符号推理、可控文本生成等任务,旨在支持可解释、可查询的生成式人工智能研究。
The Loka dataset is a comprehensive resource for training and evaluating neuro-symbolic world models, consisting of a processed subset of the Wikidata knowledge graph along with pre-trained Transformer model checkpoints. Its core is an RDF-star triple corpus where Wikidata entity and property IDs have been replaced with English labels, and language tags and datatype suffixes from literals have been stripped, resulting in plain-text triples (subject, predicate, object) stored in `corpus/triples.txt`. The corpus construction follows a strict data type filtering strategy: it retains semantically meaningful entity links, strings, numbers, dates, and monolingual texts (all languages), while discarding data types like external identifiers, URLs, and geographic coordinates that may introduce noise or cause format hallucinations. The dataset size ranges from 100,000 to 1,000,000 triples. Additionally, the dataset provides multiple versions of pre-trained model checkpoints (`checkpoints/wikidata_v*.pt`), which use a uniform 44.5M-parameter role-aware masked Transformer architecture with a 50K BPE vocabulary. Each model version also outputs generated inference triple files (`corpus/generated_v*.nt`) in RDF-star format, accompanied by detailed provenance metadata including generation flags, model version, confidence scores, and references to contextual triples used for inference, ensuring auditability of model outputs. This dataset is suitable for tasks such as knowledge graph completion, neuro-symbolic reasoning, and controlled text generation, aiming to support interpretable and queryable generative AI research.
创建时间:
2026-05-10
搜集汇总
数据集介绍

构建方式
Loka数据集的构建根植于神经符号主义与知识图谱的交叉领域,旨在弥合符号推理与神经生成之间的鸿沟。其语料库源自Wikidata的子集,经由精心设计的预处理流程完成转化:首先,将原始数据中的QID与PID替换为对应的英文标签,并剥离文字值的语言标记与数据类型后缀,生成以制表符分隔的三元组文件。其次,采用BPE分词器对文本进行编码,形成50K词块的词汇表。在构建过程中,研究团队依据语义内容对Wikidata属性进行了严格筛选,保留了实体链接、字符串、数量、时间等约2,231个具有丰富语义的属性,而剔除了超过10,000个外部标识符、URL等易引发幻觉的目录类属性,从而确保了语料库的纯净度与训练的有效性。
特点
该数据集的核心特征在于其作为神经符号世界模型的载体,兼具符号存储与神经生成的双重能力。Loka不仅是一个RDF-star三元组存储引擎,更包含一个面向角色的掩码变换器,其架构精巧:输入由主题、谓词、客体三个固定长度的角色槽位拼接而成,每个槽位嵌有角色嵌入向量,模型在训练时随机掩码一个角色并预测原始标记。所有生成的推断三元组均附带完整的溯源信息,通过RDF-star注解记录生成来源、置信度分数以及引用的上下文证据,使得每条模型输出的事实均可审计、可查询、可过滤。这种设计将神经网络的生成过程与符号系统的可解释性无缝衔接,为知识库的自动化扩展提供了可信赖的范式。
使用方法
Loka数据集的使用方法围绕其版本化快照与灵活的工具链展开。用户可通过Hugging Face Hub的`hf_hub_download`函数,指定数据集仓库`EmmaLeonhart/loka`及具体的版本标签(如`v14`),同步下载对齐的模型检查点与分词器文件。数据集根目录下包含训练用的三元组语料、BPE词汇表与分词器配置,以及模型生成的带有溯源注释的RDF-star推断文件。对于希望直接查询知识库的研究者,可拉取可选的`loka-data`目录启动本地RDF-star服务。此外,生成的推断文件遵循标准RDF格式,允许通过SPARQL查询语言进行灵活的筛选与审计,例如检索所有引用特定实体的生成三元组或按版本删除过时的模型输出。
背景与挑战
背景概述
Loka数据集由Emma Leonhart于2026年创建,旨在弥合符号知识图谱与神经语言模型之间的鸿沟。该数据集基于Wikidata构建,提出了一种神经符号世界模型,通过将RDF-star三元组存储引擎与角色感知的变换器相结合,实现了对知识的结构化表示与生成。核心研究问题聚焦于如何让模型在生成新事实的同时,保留可审计的引用路径,从而确保每个推断结果都能被追溯、查询和过滤。Loka数据集的出现为知识驱动的人工智能领域注入了新活力,尤其在可解释推理与知识增强生成方面具有里程碑意义,其影响力正逐步扩展到语义网、神经符号计算及知识图谱推理等研究方向。
当前挑战
该数据集面临的领域挑战在于解决符号知识图谱的静态性与神经模型的黑箱性之间的矛盾。传统知识库难以动态生成新关系,而纯神经模型又缺乏可验证的推理逻辑,Loka通过引入引用边试图实现两者的融合,但其平衡逻辑一致性与生成多样性仍是难题。构建过程中的挑战亦不容忽视:数据清洗需剔除大量无关属性(如82.5%的Wikidata属性被过滤),以避免模型产生格式化的幻觉;同时,训练语料的规模与质量权衡贯穿始终,从94k到672k的三元组扩展显示出在有限计算资源下,如何维持推理质量与扩展数据量之间的动态平衡是工程上的巨大考验。
常用场景
经典使用场景
Loka数据集作为一个神经符号世界模型的核心语料库,最经典的用途在于为角色感知掩码变换器提供训练数据,使其能够学习RDF-star三元组的语义关联与模式。该数据集经由对Wikidata切片进行标签替换与数据类型过滤构建而成,包含实体间语义链接、属性关联、字符串及数值型事实等结构化知识。搭配Loka引擎,研究者可利用其SPARQL+查询层统一执行符号推理与神经预测,从而在统一的框架内实现知识图谱的补全与验证。这种融合符号表示与深度学习的方式,使得Loka成为探索可解释、可审计的知识驱动型人工智能的重要基准。
解决学术问题
该数据集核心解决了知识图谱自动补全中预测结果不可追溯与不可过滤的学术难题。通过引入propositionInferredFrom引用边机制,Loka为每条模型生成的三元组保留了与原始上下文间的因果链路,使得任何机器产出的事实均可溯源、可查询,并能通过SPARQL进行精细化筛选。这一创新有效遏制了早期版本中出现的外部位标识符格式泄露与确定性幻觉问题,显著提升语义谓词上的预测比例至97%。其影响在于为知识工程社区提供了首个具备完全审计能力的神经符号训练与推理基准,推动了可信人工智能与开放世界知识建模范式的融合。
衍生相关工作
基于Loka数据集及其架构,已衍生出一系列推动开放知识表示与可验证推理的前沿工作。在语料构建层面,研究者开发了标准化的Wikidata预处理流水线(normalized-wikidata),输出规模从9万条三元组扩展至约七百万条,并形成了独立的公开子数据集供社区复用。在模型层面,通过对比词级分词器与BPE词片模型的表现差异,揭示了语料组成对神经符号系统行为的关键影响。此外,数据集中对外部标识符、URL等噪声数据类型的系统性剔除策略,为后续知识图谱语料清洗提供了可复用的方法论参考,催生了多篇关于数据质量与幻觉抑制的实证分析研究。
以上内容由遇见数据集搜集并总结生成



