Resources for KZSL
收藏KZSL: Benchmarking Knowledge-driven Zero-shot Learning
1. 简介
本仓库包含用于基准测试论文“Benchmarking Knowledge-driven Zero-shot Learning”的资源。我们为基于知识图谱(KG)的零样本学习(ZSL)研究创建了系统资源,包括零样本图像分类(ZS-IMGC)、零样本关系抽取(ZS-RE)和零样本知识图谱(KG)补全(ZS-KGC),共包含6个ZSL数据集及其对应的知识图谱,旨在为研究和比较不同的基于KG的ZSL方法提供标准基准和多样化的语义设置。
2. 零样本图像分类(ZS-IMGC)
ZS-IMGC旨在预测没有标记训练图像的新类别的图像。我们提供了三个标准的ZS-IMGC数据集,包括我们自己构建的ImNet-A和ImNet-O,以及一个广泛使用的基准AwA2。每个数据集都构建了一个知识图谱来表示其不同类型的类别语义,包括类别属性、文本和层次结构,以及来自ConceptNet的常识知识和类别之间的逻辑关系(例如,不相交性)。
统计数据
| 数据集 | 类别数(总数/已见/未见) | 属性数 | 图像数 |
|---|---|---|---|
| ImNet-A | 80 / 28 / 52 | 85 | 77,323 |
| ImNet-O | 35 / 10 / 25 | 40 | 39,361 |
| AwA2 | 50 / 40 / 10 | 85 | 37,322 |
| 知识图谱 | 实体数 | 关系数 | 三元组数 |
|---|---|---|---|
| ImNet-A | 8,920 | 41 | 10,461 |
| ImNet-O | 3,148 | 31 | 3,990 |
| AwA2 | 9,195 | 42 | 14,112 |
使用方法
ZSL数据集(类别分割和图像特征)
- ImNet-A/O:类别分割文件已在文件夹
ZS_IMGC/ZSL_Dataset/ImageNet/中提供,包含seen.txt和unseen.txt,这些类别的图像特征保存在.mat文件中。 - AwA2:数据集分割文件和图像特征文件均以
.mat文件形式提供。
知识图谱
每个知识图谱由RDF三元组组成,并以CSV文件形式存储,包含对应于主体、关系和客体的三列。我们在仓库中提供了这些知识图谱,可以在文件夹ZS_IMGC/KG/中浏览。注意CSV文件以制表符 分隔。
3. 零样本关系抽取(ZS-RE)
ZS-RE旨在通过句子预测/抽取两个给定实体提及之间的未见关系。我们构建了一个名为ZeroRel的ZS-RE数据集,支持更多的ZSL设置,并提供了一个配备逻辑规则的知识图谱作为关系标签的外部知识。
统计数据
| 数据集 | 关系数(总数/已见/未见) | 句子数(总数/训练/测试) |
|---|---|---|
| ZeroRel | 100 / 70 / 30 | 104,646 / 84,000 / 20,646 |
统计上,构建的知识图谱包含20,982,733个实体,594个关系和68,904,773个三元组。我们为数据集中的关系贡献了50条长度为1的规则和122条长度为2的规则。
使用方法
ZSL数据集(关系分割和原始文本)
- 关系分割文件已在文件夹
ZS_RE/ZeroRel/中提供,包含seen70.json和unseen30.json。 - 从这里下载包含原始文本的数据集,并放入文件夹
ZS_RE/ZeroRel/。
数据集包含3个CSV文件:训练样本(train.csv)、已见测试样本(test_seen.csv)和未见测试样本(test_unseen.csv),每行是一个样本,包括句子文本、关系标签、实体提及对及其在句子中的索引。
知识图谱和逻辑规则
- 知识图谱以CSV文件形式存储,包含对应于主体、关系和客体的三列。可以从这里下载并放入文件夹
ZS-RE/External_Knowledge/。 - 逻辑规则以JSON文件形式存储,包含“head”、“body”和“pcaconf”属性,指定规则的头、体和PCA置信度得分。已在文件夹
ZS-RE/External_Knowledge/中提供。
4. 零样本知识图谱补全(ZS-KGC)
ZS-KGC在这里指的是预测(补全)训练事实中从未出现过的关系的知识图谱事实。在我们的资源中,我们采用了两个标准的ZS-KGC基准NELL-ZS和Wiki-ZS,分别从NELL和Wikidata中提取。对于每个基准,我们构建了一个本体模式作为外部知识,包括由RDFS表示的关系语义,如关系和概念层次结构、关系域和范围,以及由OWL表示的关系语义,包括关系特征(例如,对称性)和关系间关系(例如,组合),以及关系和概念的文本元数据。
统计数据
| 数据集 | 实体数 | 关系数(训练/验证/测试) | 三元组数(训练/验证/测试) |
|---|---|---|---|
| NELL-ZS | 65,567 | 139 / 10 / 32 | 181,053 / 1,856 / 5,483 |
| Wiki-ZS | 605,812 | 469 / 20 / 48 | 701,977 / 7,241 / 15,710 |
| 本体模式 | 关系数 | 概念数 | 文字数 | 元关系数 | RDFS公理数 | OWL公理数 |
|---|---|---|---|---|---|---|
| NELL-ZS | 894 | 292 | 1,063 | 9 | 3,055 | 134 |
| Wiki-ZS | 560 | 1,344 | 3,808 | 11 | 4,821 | 113 |
使用方法
ZSL数据集
从这里下载NELL-ZS和从这里下载Wiki-ZS,并放入文件夹ZS_KGC/ZSL_Dataset/。
每个数据集包含三个.json文件:
train_tasks.json:训练集中的三元组和训练关系dev_tasks.json:验证集中的三元组和验证关系test_tasks.json:测试集中的三元组和测试关系(即未见关系)
每个json文件包含一个字典,其中keys是集合中的关系,values是该关系的三元组列表。
本体模式
每个本体模式以两种格式保存:
- 原始本体文件以
.owl结尾,可以直接使用本体编辑器如Protege查看。 - RDF三元组以CSV文件形式保存,根据W3C OWL到RDF图映射从本体转换而来。
这些文件已在文件夹ZS_KGC/Ontological_Schema/中提供。




