five

Leon-Leee/zh-wiki-disambig

收藏
Hugging Face2026-04-14 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Leon-Leee/zh-wiki-disambig
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - zh license: cc-by-sa-4.0 task_categories: - text-classification - token-classification tags: - disambiguation - entity-linking - chinese - wikipedia - knowledge-graph size_categories: - 10K<n<100K --- # Chinese Wikipedia Disambiguation Entities 从中文维基百科 XML dump 中提取的 **62,040 个消歧义页**,结构化为 base_name → candidate entities 的映射。 据我们所知,这是目前开源社区中唯一的中文维基消歧义实体结构化数据集。英文侧有 DBpedia 的 disambiguation 资源,中文一直缺少等价物。 ## 数据格式 每行一个 JSON 对象: ```json { "title": "風車 (消歧義)", "base_name": "風車", "n_links": 3, "links": [ {"target": "風車 (動力機)", "all_links": ["風車 (動力機)"], "description": "一種利用风力驱动的机械装置"}, {"target": "风车 (玩具)", "all_links": ["风车 (玩具)"], "description": "一种玩具"}, {"target": "风车 (农具)", "all_links": ["风车 (农具)"], "description": "用来给稻谷脱壳的农具"} ], "wikitext_len": 215 } ``` | 字段 | 说明 | |------|------| | `title` | 维基消歧义页标题 | | `base_name` | 歧义名称(去掉"消歧义"后缀) | | `n_links` | 候选实体数量 | | `links` | 候选实体列表,每个含 `target`(文章标题)、`description`(简短说明) | | `wikitext_len` | 原始 wikitext 长度 | ## 用途 - 实体消歧 / Entity Disambiguation - 实体链接 / Entity Linking - 知识图谱补全 - 中文 NLP 训练数据构造 ## 来源 从 `zhwiki-latest-pages-articles.xml.bz2` 中识别含 `{{Disambig}}` / `{{消歧义}}` 等模板的页面,解析其 wikitext 中的结构化链接。
提供机构:
Leon-Leee
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作