Leon-Leee/zh-wiki-disambig
收藏Hugging Face2026-04-14 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Leon-Leee/zh-wiki-disambig
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- zh
license: cc-by-sa-4.0
task_categories:
- text-classification
- token-classification
tags:
- disambiguation
- entity-linking
- chinese
- wikipedia
- knowledge-graph
size_categories:
- 10K<n<100K
---
# Chinese Wikipedia Disambiguation Entities
从中文维基百科 XML dump 中提取的 **62,040 个消歧义页**,结构化为 base_name → candidate entities 的映射。
据我们所知,这是目前开源社区中唯一的中文维基消歧义实体结构化数据集。英文侧有 DBpedia 的 disambiguation 资源,中文一直缺少等价物。
## 数据格式
每行一个 JSON 对象:
```json
{
"title": "風車 (消歧義)",
"base_name": "風車",
"n_links": 3,
"links": [
{"target": "風車 (動力機)", "all_links": ["風車 (動力機)"], "description": "一種利用风力驱动的机械装置"},
{"target": "风车 (玩具)", "all_links": ["风车 (玩具)"], "description": "一种玩具"},
{"target": "风车 (农具)", "all_links": ["风车 (农具)"], "description": "用来给稻谷脱壳的农具"}
],
"wikitext_len": 215
}
```
| 字段 | 说明 |
|------|------|
| `title` | 维基消歧义页标题 |
| `base_name` | 歧义名称(去掉"消歧义"后缀) |
| `n_links` | 候选实体数量 |
| `links` | 候选实体列表,每个含 `target`(文章标题)、`description`(简短说明) |
| `wikitext_len` | 原始 wikitext 长度 |
## 用途
- 实体消歧 / Entity Disambiguation
- 实体链接 / Entity Linking
- 知识图谱补全
- 中文 NLP 训练数据构造
## 来源
从 `zhwiki-latest-pages-articles.xml.bz2` 中识别含 `{{Disambig}}` / `{{消歧义}}` 等模板的页面,解析其 wikitext 中的结构化链接。
提供机构:
Leon-Leee



