philippesaade/Wikidata_Vectors_0.2
收藏Hugging Face2026-05-01 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/philippesaade/Wikidata_Vectors_0.2
下载链接
链接失效反馈官方服务:
资源简介:
Wikidata实体嵌入0.2是一个包含Wikidata实体嵌入向量的数据集。每个向量代表一个基于从Wikidata提取的文本信息的Wikidata项目(Q...)或属性(P...)。该数据集是Wikidata嵌入项目的一部分,该项目由Wikimedia Deutschland与Jina AI和IBM DataStax合作领导,旨在提供一个公开可访问的Wikidata向量数据库,以支持语义搜索和开源AI社区在Wikidata上构建应用程序。数据集包含44百万个向量,23百万个独特的Wikidata实体(至少链接到一个Wikipedia页面的实体),512维嵌入,支持英语、法语、德语和阿拉伯语。嵌入是使用Jina AI的jina-embeddings-v3模型生成的,每个实体通过其标签、描述和序列化语句构建文本表示并编码为向量。数据集仅包含具有至少一个Wikipedia站点链接和足够文本信息的实体,且数据更新仅限于2024年9月18日的Wikidata数据转储。
Wikidata Entity Embeddings 0.2 is a dataset of embedding vectors for Wikidata entities. Each vector represents a Wikidata item (Q...) or property (P...) based on textual information extracted from Wikidata. The dataset is part of the Wikidata Embedding Project, an initiative led by Wikimedia Deutschland in collaboration with Jina AI and IBM DataStax, providing a publicly accessible Wikidata Vector Database to enable semantic search and support the mission-aligned, open-source AI community in building applications on top of Wikidata. The dataset contains 44 million vectors, 23 million unique Wikidata entities (entities linked to at least one Wikipedia page), 512-dimensional embeddings, and supports English, French, German, and Arabic. Embeddings were generated using Jina AIs jina-embeddings-v3 model, with each entitys textual representation constructed from its label, description, and serialized statements and encoded into a vector. The dataset includes only entities with at least one Wikipedia sitelink and sufficient textual information, and data updates are limited to the September 18, 2024, Wikidata Data Dump.
提供机构:
philippesaade
搜集汇总
数据集介绍

构建方式
Wikidata_Vectors_0.2数据集基于全球最大开放知识图谱Wikidata构建,其生成过程严格遵循实体筛选与向量化两个核心环节。首先,数据集中仅纳入满足以下条件的实体:至少关联一个维基百科页面、具备目标语言标签、拥有目标语言描述或至少一条陈述。随后,利用Jina AI开发的多语言嵌入模型jina-embeddings-v3,将每个实体的标签、描述及序列化陈述转化为512维的浮点向量,并以Base64编码形式存储为Parquet分片文件,按英语、法语、德语及阿拉伯语四种语言分别组织。
特点
该数据集囊括约4400万个向量,覆盖2300万个独特的Wikidata实体,每个向量维度固定为512,确保了语义表示的丰富性与一致性。其突出特点在于多语言支持,同一实体在不同语言下拥有独立的嵌入表示,从而捕捉跨语言语境下的语义差异。数据集通过Parquet格式分片存储,便于高效加载与流式处理,同时提供开源API接口,使研究者能够直接查询预构建的向量数据库,显著降低了语义搜索与知识图谱应用的开发门槛。
使用方法
用户可通过Hugging Face的datasets库加载数据集,指定语言文件夹(如data/en/*.parquet)并以流式方式迭代处理。向量列以Base64编码的二进制格式存储,需通过base64解码及numpy的frombuffer方法将其还原为float32数组。数据集适用于多种下游任务,包括特征提取、文本检索、文本分类及句子相似度计算。此外,用户亦可利用公开的Vector Database API(访问地址:wd-vectordb.wmcloud.org)直接进行语义查询,无需本地处理大量数据。
背景与挑战
背景概述
Wikidata Entity Embeddings 0.2 数据集由 Wikimedia Deutschland 主导,联合 Jina AI 与 IBM DataStax 于 2024 年发布,旨在为全球最大的开放知识图谱 Wikidata 提供语义向量化表示。该数据集基于 2024 年 9 月 18 日的 Wikidata 数据转储,利用 Jina AI 的多语言嵌入模型 jina-embeddings-v3,将 2300 万个实体(涵盖四种语言)的标签、描述与序列化陈述转换为 512 维向量,支撑语义搜索、特征提取与文本分类等下游任务。作为 Wikidata 向量数据库项目的一部分,该数据集推动了开放知识图谱与 AI 社区的深度融合,为多语言知识检索与智能应用提供了标准化基础设施。
当前挑战
当前数据集面临的核心挑战包括:首先,嵌入模型并非知识图谱原生,只能通过扁平化的文本表征间接捕获图结构关系,丢失了实体间的拓扑语义与路径信息;其次,数据集仅收录拥有至少一个 Wikipedia 站点链接且具备充分文本信息的实体,大量稀疏或独立实体(如新兴概念、低资源语言条目)被排除在外,限制了知识覆盖的完整性;此外,数据更新局限于 2024 年 9 月 18 日的转储,无法反映后续知识图谱的动态演化,时效性不足;最后,多语言嵌入的生成依赖逐语言独立处理,缺乏跨语言对齐机制,同一实体在不同语言下的向量空间可能产生语义偏移。
常用场景
经典使用场景
Wikidata_Vectors_0.2数据集为知识图谱与自然语言处理领域提供了高质量的实体嵌入表示,其经典使用场景集中于基于向量的语义检索与实体链接任务。研究人员可利用该数据集将维基数据中的结构化知识转化为稠密向量空间中的点,从而对超过4400万个实体进行高效近似最近邻搜索。这些512维的嵌入向量涵盖了英语、法语、德语和阿拉伯语四种语言,支持跨语言实体对齐与多语言知识融合。在问答系统、信息抽取和知识图谱补全等场景中,该数据集作为预训练嵌入库,能够直接用于下游任务的输入特征或构建索引,显著降低了从零开始训练实体嵌入的计算成本。
实际应用
在实际工业场景中,Wikidata_Vectors_0.2数据集支撑着智能搜索引擎、推荐系统和对话AI等应用的语义理解能力。借助公开可用的向量数据库API,开发者无需本地部署大规模计算资源即可对维基数据实体进行实时语义检索,例如在电商平台中识别商品类别、在新闻聚合器中匹配相关话题。该数据集还赋能了知识密集型聊天机器人,使其能够根据用户查询精准定位维基数据中对应的实体信息。由于嵌入向量已编码了实体的标签、描述与结构化陈述,这些应用可以在多语言环境下流畅运作,为全球用户提供一致的智能服务体验。
衍生相关工作
该数据集衍生出多项经典研究工作,主要集中在基于向量的知识检索优化与多语言嵌入分析领域。依托于jina-embeddings-v3的原创性嵌入管线,研究人员后续探索了如何改进文本化表示策略以捕获更深层的知识图谱结构特征,例如将关系路径和层级信息融入线性化描述。此外,该数据集推动了跨语言实体链接评估框架的建立,使得不同语言嵌入之间的对齐质量得以量化比较。这些工作不仅验证了扁平化文本表示在大规模知识图谱嵌入中的有效性,也为下一代知识密集型的检索增强生成模型提供了实验基准。
以上内容由遇见数据集搜集并总结生成



