Resources for KZSL

arXiv2022-10-27 更新2024-07-30 收录

下载链接：

https://github.com/China-UK-ZSL/Resources_for_KZSL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个任务的六种资源，用于零样本学习，包括零样本图像分类、零样本关系提取和零样本知识图谱补全。每个资源都包含一个标准的零样本学习基准和一个知识图谱，涵盖从文本到属性、从关系知识到逻辑表达的语义。

This dataset contains six resources for three zero-shot learning tasks, including zero-shot image classification, zero-shot relation extraction, and zero-shot knowledge graph completion. Each resource includes a standard zero-shot learning benchmark and a knowledge graph, covering semantics ranging from text to attributes, relational knowledge to logical expressions.

创建时间：

2021-06-29

原始信息汇总

KZSL: Benchmarking Knowledge-driven Zero-shot Learning

1. 简介

本仓库包含用于基准测试论文“Benchmarking Knowledge-driven Zero-shot Learning”的资源。我们为基于知识图谱（KG）的零样本学习（ZSL）研究创建了系统资源，包括零样本图像分类（ZS-IMGC）、零样本关系抽取（ZS-RE）和零样本知识图谱（KG）补全（ZS-KGC），共包含6个ZSL数据集及其对应的知识图谱，旨在为研究和比较不同的基于KG的ZSL方法提供标准基准和多样化的语义设置。

2. 零样本图像分类（ZS-IMGC）

ZS-IMGC旨在预测没有标记训练图像的新类别的图像。我们提供了三个标准的ZS-IMGC数据集，包括我们自己构建的ImNet-A和ImNet-O，以及一个广泛使用的基准AwA2。每个数据集都构建了一个知识图谱来表示其不同类型的类别语义，包括类别属性、文本和层次结构，以及来自ConceptNet的常识知识和类别之间的逻辑关系（例如，不相交性）。

统计数据

数据集	类别数（总数/已见/未见）	属性数	图像数
ImNet-A	80 / 28 / 52	85	77,323
ImNet-O	35 / 10 / 25	40	39,361
AwA2	50 / 40 / 10	85	37,322

知识图谱	实体数	关系数	三元组数
ImNet-A	8,920	41	10,461
ImNet-O	3,148	31	3,990
AwA2	9,195	42	14,112

使用方法

ZSL数据集（类别分割和图像特征）

ImNet-A/O：类别分割文件已在文件夹ZS_IMGC/ZSL_Dataset/ImageNet/中提供，包含seen.txt和unseen.txt，这些类别的图像特征保存在.mat文件中。
AwA2：数据集分割文件和图像特征文件均以.mat文件形式提供。

知识图谱

每个知识图谱由RDF三元组组成，并以CSV文件形式存储，包含对应于主体、关系和客体的三列。我们在仓库中提供了这些知识图谱，可以在文件夹ZS_IMGC/KG/中浏览。注意CSV文件以制表符分隔。

3. 零样本关系抽取（ZS-RE）

ZS-RE旨在通过句子预测/抽取两个给定实体提及之间的未见关系。我们构建了一个名为ZeroRel的ZS-RE数据集，支持更多的ZSL设置，并提供了一个配备逻辑规则的知识图谱作为关系标签的外部知识。

统计数据

数据集	关系数（总数/已见/未见）	句子数（总数/训练/测试）
ZeroRel	100 / 70 / 30	104,646 / 84,000 / 20,646

统计上，构建的知识图谱包含20,982,733个实体，594个关系和68,904,773个三元组。我们为数据集中的关系贡献了50条长度为1的规则和122条长度为2的规则。

使用方法

ZSL数据集（关系分割和原始文本）

关系分割文件已在文件夹ZS_RE/ZeroRel/中提供，包含seen70.json和unseen30.json。
从这里下载包含原始文本的数据集，并放入文件夹ZS_RE/ZeroRel/。

数据集包含3个CSV文件：训练样本（train.csv）、已见测试样本（test_seen.csv）和未见测试样本（test_unseen.csv），每行是一个样本，包括句子文本、关系标签、实体提及对及其在句子中的索引。

知识图谱和逻辑规则

知识图谱以CSV文件形式存储，包含对应于主体、关系和客体的三列。可以从这里下载并放入文件夹ZS-RE/External_Knowledge/。
逻辑规则以JSON文件形式存储，包含“head”、“body”和“pcaconf”属性，指定规则的头、体和PCA置信度得分。已在文件夹ZS-RE/External_Knowledge/中提供。

4. 零样本知识图谱补全（ZS-KGC）

ZS-KGC在这里指的是预测（补全）训练事实中从未出现过的关系的知识图谱事实。在我们的资源中，我们采用了两个标准的ZS-KGC基准NELL-ZS和Wiki-ZS，分别从NELL和Wikidata中提取。对于每个基准，我们构建了一个本体模式作为外部知识，包括由RDFS表示的关系语义，如关系和概念层次结构、关系域和范围，以及由OWL表示的关系语义，包括关系特征（例如，对称性）和关系间关系（例如，组合），以及关系和概念的文本元数据。

统计数据

数据集	实体数	关系数（训练/验证/测试）	三元组数（训练/验证/测试）
NELL-ZS	65,567	139 / 10 / 32	181,053 / 1,856 / 5,483
Wiki-ZS	605,812	469 / 20 / 48	701,977 / 7,241 / 15,710

本体模式	关系数	概念数	文字数	元关系数	RDFS公理数	OWL公理数
NELL-ZS	894	292	1,063	9	3,055	134
Wiki-ZS	560	1,344	3,808	11	4,821	113

使用方法

ZSL数据集

从这里下载NELL-ZS和从这里下载Wiki-ZS，并放入文件夹ZS_KGC/ZSL_Dataset/。

每个数据集包含三个.json文件：

train_tasks.json：训练集中的三元组和训练关系
dev_tasks.json：验证集中的三元组和验证关系
test_tasks.json：测试集中的三元组和测试关系（即未见关系）

每个json文件包含一个字典，其中keys是集合中的关系，values是该关系的三元组列表。

本体模式

每个本体模式以两种格式保存：

原始本体文件以.owl结尾，可以直接使用本体编辑器如Protege查看。
RDF三元组以CSV文件形式保存，根据W3C OWL到RDF图映射从本体转换而来。

这些文件已在文件夹ZS_KGC/Ontological_Schema/中提供。

搜集汇总

数据集介绍

构建方式

Resources for KZSL 数据集的构建采用了知识图谱（KG）作为外部知识，以解决零样本学习（ZSL）中的语义不完整性问题。该数据集包含了三种任务的资源：零样本图像分类（ZS-IMGC）、零样本关系抽取（ZS-RE）和零样本知识图谱补全（ZS-KGC）。每个资源都包含一个标准ZSL基准和一个知识图谱，该图谱涵盖了从文本到属性、从关系知识到逻辑表达式等不同层次的语义。数据集的构建过程包括从WordNet、ImageNet、ConceptNet、Wikidata等资源中提取类层次、属性、文本、关系事实和逻辑表达式等信息，并将其整合到一个统一的图中。此外，还邀请了志愿者对属性和类之间的逻辑关系进行标注，以确保知识的准确性和完整性。

特点

Resources for KZSL 数据集的特点在于其丰富的外部知识和多样化的语义设置。该数据集不仅包含了常见的类层次、属性和文本信息，还引入了从ConceptNet中提取的常识关系事实和逻辑表达式，如类之间的不相交性。这种多样化的语义设置使得数据集能够支持不同类型的ZSL方法和研究。此外，数据集还提供了详细的统计数据、数据格式和用法案例，方便用户进行评估和开发。

使用方法

Resources for KZSL 数据集的使用方法包括以下步骤：1. 选择适合的ZSL任务和资源，如ZS-IMGC、ZS-RE或ZS-KGC；2. 根据需要选择不同的外部知识设置，如类层次、属性、文本、关系事实和逻辑表达式；3. 使用语义嵌入技术对选定的外部知识进行编码，生成每个类或关系的向量表示；4. 将生成的向量表示应用于ZSL方法，如DeViSE、OntoZSL、GCNZ等，进行预测或分类；5. 评估ZSL方法的性能，并与不同的外部知识设置进行比较，以找到最佳的性能组合。此外，数据集还可以用于可解释的ZSL方法的研究和评估，通过提取类知识来解释ZSL模型或预测结果。

背景与挑战

背景概述

知识驱动的零样本学习（ZSL）旨在预测训练数据中从未出现过的类别。在ZSL中，外部知识（也称为侧信息）发挥着关键作用，因为它描述了类别之间的先验语义关系。本文提出的Resources for KZSL数据集旨在为研究者和开发者提供一套系统性的资源，用于探索和比较不同的外部知识设置和基于知识图谱的ZSL方法。该数据集包括六个基准数据集，涵盖了三个任务：零样本图像分类（ZS-IMGC）、零样本关系抽取（ZS-RE）和零样本知识图谱补全（ZS-KGC）。每个基准数据集都包含一个正常的ZSL基准和一个包含从文本到属性、从关系知识到逻辑表达式的语义范围的知识图谱。这些资源为研究不同外部知识设置下的ZSL方法提供了广泛的可能性，并有望促进更先进ZSL方法的开发以及知识图谱在增强机器学习中的应用。

当前挑战

Resources for KZSL数据集在研究和发展过程中面临着一些挑战。首先，如何有效地利用多种外部知识语义，例如属性、文本、关系事实和逻辑表达式，以提高ZSL模型的性能和可解释性，是一个重要的挑战。其次，构建过程中需要解决数据集不平衡的问题，例如训练样本在不同关系之间分布不均。此外，现有的ZSL方法通常依赖于预训练的知识图谱嵌入技术，这些技术在处理具有不同语义设置的知识图谱时可能存在局限性。最后，如何有效地利用逻辑表达式，如OWL词汇表定义的关系特性和关系之间的相互关系，以增强ZSL模型的能力，也是一个需要进一步研究的挑战。

常用场景

经典使用场景

Resources for KZSL数据集主要被用于评估和比较不同的知识驱动的零样本学习方法，特别是在零样本图像分类（ZS-IMGC）、零样本关系抽取（ZS-RE）和零样本知识图谱补全（ZS-KGC）这三个任务上。该数据集为研究者提供了不同类型的知识图谱，包括从文本到属性、从关系知识到逻辑表达式，以及不同领域和粒度的数据集，使得研究者可以全面地评估不同外部知识设置和不同基于知识图谱的零样本学习方法。

解决学术问题

Resources for KZSL数据集解决了当前零样本学习中存在的外部知识语义不完整和缺乏标准基准的问题。通过提供包含不同类型外部知识的知识图谱，研究者可以更全面地评估和比较不同方法的性能。此外，该数据集还提供了不同领域和粒度的数据集，使得研究者可以更全面地评估和比较不同方法的性能。

衍生相关工作

Resources for KZSL数据集衍生了大量的相关研究工作。例如，一些研究工作使用了该数据集来评估和比较不同的语义嵌入技术，这些技术可以用于将知识图谱中的知识编码为向量表示。此外，一些研究工作还使用了该数据集来评估和比较不同的基于知识图谱的零样本学习方法，这些方法可以用于预测新的类别或关系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集