wikidata-title-desc
收藏Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/wikimedia/wikidata-title-desc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集为多语言维基数据标题与描述数据集,涵盖200余种语言(包括ab、ace、ady等语言代码及simple等BCP47变体)。数据集以parquet格式存储,包含以下字段:qid(条目ID)、lang(语言代码)、title(标题文本)、description(描述文本)和snapshot(快照版本)。数据源自维基知识库,适用于多语言实体链接、知识库构建、机器翻译等NLP任务。采用CC-BY-SA-4.0许可协议发布。
创建时间:
2026-05-07
原始信息汇总
Wikidata Title and Description 数据集概述
基本信息
- 数据集名称: Wikidata Title and Description
- 许可证: Creative Commons Attribution-ShareAlike 4.0 (CC-BY-SA-4.0)
- 标签: wikidata, wikipedia, multilingual, entity-descriptions, knowledge-base, nlp
- 数据格式: Parquet
数据字段
数据集包含以下五个字段:
- qid: Wikidata 实体 ID(字符串类型)
- lang: 语言代码(字符串类型)
- title: 实体标题(字符串类型)
- description: 实体描述(字符串类型)
- snapshot: 数据快照标识(字符串类型)
语言覆盖
该数据集涵盖极其广泛的语言种类,支持数百种语言,包括:
- 主要世界语言(如 en, zh, de, fr, es, ar, ru, ja 等)
- 区域性语言(如 hi, bn, sw, yo, ha 等)
- 少数族群语言(如 av, got, nv, chr 等)
- 人工语言(如 eo, jbo, lfn 等)
- 历史语言(如 cu, got 等)
- 同时包含 simple(简单英语)以 BCP-47 格式标注
数据集配置
数据集提供按语言划分的多个配置版本,每个配置对应一个语言子集,数据文件均为 train.parquet 格式:
- 默认配置:
all(包含所有语言的数据,位于data/all/train.parquet) - 单语言配置: 每个支持的语言都有一个独立配置,文件位于
data/{语言代码}/train.parquet,例如:- 英语:
data/en/train.parquet - 中文:
data/zh/train.parquet - 法语:
data/fr/train.parquet - 斯瓦希里语:
data/sw/train.parquet
- 英语:
应用场景
该数据集适用于多种自然语言处理(NLP)任务,主要包括:
- 多语言实体识别与消歧
- 知识库构建与补全
- 多语言文本生成(如实体描述生成)
- 跨语言信息检索
- 多语言 NLP 模型预训练
数据来源
数据来源于 Wikidata 知识库,属于多语言实体描述数据集,为知识库相关研究和应用提供基础数据支持。
搜集汇总
数据集介绍

构建方式
Wikidata作为全球最大的结构化知识图谱,为自然语言处理研究提供了丰富的多语言实体信息。wikidata-title-desc数据集基于Wikidata的公开数据构建,系统地提取了每个实体的QID标识符、语言标签、标题及描述字段。数据以Parquet格式存储,支持按单一语言或全量语言加载。该数据集共涵盖数百种语言,从阿布哈兹语到祖鲁语,几乎囊括了全球所有主流及少数民族语言,每个语言配置均包含独立的训练文件。通过这种细致的划分,研究者可以灵活地针对特定语言或跨语言场景进行模型训练与评估。
特点
该数据集的核心特色在于其无与伦比的多语言覆盖广度与结构化程度。数据集中每条记录包含实体的唯一QID、语言标识符、原生标题文本以及对应的描述文本,同时标注了数据快照版本。这种简洁而完整的四元组结构,使得实体识别、语义匹配及描述生成等任务均能直接受益。此外,数据集采用CC-BY-SA-4.0许可协议,确保了学术研究与商业应用的合规性。得益于Wikidata的持续更新机制,数据集定期快照,能够反映知识图谱的最新演化状态。
使用方法
在使用方法上,该数据集通过HuggingFace Datasets库提供无缝加载体验。用户可通过指定语言代码(如'en')加载特定语言的子集,或使用'url'参数直接读取远程Parquet文件。对于需要全量多语言数据的研究,可加载'all'配置以获取所有语言的统一数据。数据加载后,每条样本包含qid、lang、title、description和snapshot五个字段,可直接用于序列标注、文本生成或跨语言表示学习等任务。同时,Parquet格式的列式存储特性,也有助于高效的数据过滤与特征工程操作。
背景与挑战
背景概述
Wikidata作为全球最大的协作式结构化知识库,其核心挑战之一在于为海量实体提供多语言、简洁而准确的标识信息。wikidata-title-desc数据集应运而生,旨在系统性地收集并整理维基数据实体在全球数百种语言中的标题与描述。该数据集由开源社区通过协作方式创建,并采用CC-BY-SA-4.0许可协议发布,核心研究问题聚焦于支持跨语言自然语言处理任务,例如实体链接、语义搜索以及多语言知识图谱推理。凭借其覆盖从英语到多种低资源语言的广度,该数据集不仅推动了多语言NLP模型的训练与评估,更成为连接结构化知识与非结构化文本之间的重要桥梁,对推动语言多样性下的知识表示与计算研究产生了深远影响。
当前挑战
该数据集所解决的领域问题核心在于多语言知识表示中的语义鸿沟。在自然语言处理中,跨语言实体识别与描述通常依赖人工构建的字典或对齐语料,而wikidata-title-desc通过提供统一的标题-描述对,实现了跨越数百种语言的实体语义对齐。然而,构建过程面临显著挑战:如何处理低资源语言的稀疏性和描述质量不一的问题,确保描述内容的准确性与一致性;同时,多语言间的词汇歧义、指代不明以及文化特异性表达也为数据清洗与标准化增添了复杂性。此外,数据集的持续维护和版本迭代需要庞大的人力与计算资源,以应对维基数据内容的动态演化,这对数据集的时效性与长期可用性构成了实质考验。
常用场景
经典使用场景
在自然语言处理与知识图谱的交叉研究领域中,wikidata-title-desc数据集凭借其涵盖数百种语言的实体标题与描述对,成为多语言实体链接与知识库补全任务的基石性资源。研究者常利用该数据集训练跨语言实体表示模型,通过对齐不同语言中同一实体的标题与描述,学习语言无关的语义表征,进而提升跨语言信息检索与问答系统的性能。
实际应用
在实际产业界,该数据集赋能了多语言搜索引擎的实体卡片生成、智能翻译系统的术语对齐以及跨语言推荐引擎的构建。例如,维基媒体平台可利用它自动生成不同语言版本的条目摘要,电商全球化场景中则能基于实体描述增强商品信息的语义匹配,从而优化多语言用户的交互体验。
衍生相关工作
该数据集衍生出了诸多经典工作,如基于对比学习的多语言实体编码器BLINK-XXL,以及利用标题与描述进行零样本关系分类的Zero-Shot Relation Prediction模型。这些工作进一步催生了多语言维基百科摘要生成、跨语言知识图谱对齐等方向的深入研究,促进了多模态与多语言信息的深度融合。
以上内容由遇见数据集搜集并总结生成



