five

TextWorld KG Dataset

收藏
github2024-03-31 更新2024-05-31 收录
下载链接:
https://github.com/MikulasZelinka/textworld_kg_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在论文《从文本游戏中构建动态知识图谱》中提出的,用于支持动态知识图谱的学习和文本游戏的泛化。数据集被分为训练、验证和测试集,每个集都是一个.json文件,每行代表一个数据点,包含先前的三元组、先前动作、当前观察和目标命令等元素。

This dataset was proposed in the paper 'Constructing Dynamic Knowledge Graphs from Text Games' to support the learning of dynamic knowledge graphs and the generalization of text games. The dataset is divided into training, validation, and test sets, each of which is a .json file. Each line represents a data point, containing elements such as previous triplets, previous actions, current observations, and target commands.
创建时间:
2019-10-22
原始信息汇总

TextWorld KG Dataset 概述

数据集来源

本数据集源自论文《Building Dynamic Knowledge Graphs from Text-based Games》,旨在支持动态知识图谱的构建,以提升文本游戏中的泛化能力。

数据集统计信息

#Train #Valid #Test Avg. Obs. Avg. #Operations #Vertices #Edges Avg. #Connections
267,031 13,442 41,865 29.3 tokens 3.1 99 10 43.1

数据格式

数据集已分割为训练集、验证集和测试集,每个部分均存储于.json文件中。每个.json文件中的每一行代表一个单独的数据点,具体包含以下元素:

  • previous_triplets: 上一游戏步骤的地面实况(部分可观测)图,以三元组表示;
  • previous_action: 代理在上一游戏步骤执行的文本动作;
  • observation: 当前游戏步骤的观察结果,由previous_action引起;
  • target_commands: 以文本命令(操作)表示的图更新。
搜集汇总
数据集介绍
main_image_url
构建方式
TextWorld KG数据集的构建基于文本游戏中的动态知识图谱生成,旨在通过游戏中的文本交互来捕捉知识的动态变化。该数据集通过解析文本游戏中的每一步操作和观察,将其转化为结构化的知识图谱形式。具体而言,每个数据点包含了前一步的游戏状态、执行的动作、当前观察结果以及相应的图谱更新命令。这些数据点以JSON格式存储,分别划分为训练集、验证集和测试集,确保了数据的高效利用和模型评估的准确性。
特点
TextWorld KG数据集的特点在于其高度结构化的知识表示和动态更新的特性。每个数据点不仅包含了文本游戏的观察和动作,还通过三元组形式记录了知识图谱的变化,使得数据集能够支持复杂的推理任务。数据集的规模较大,包含超过26万个训练样本,且每个样本的平均观察长度为29.3个词,动作数量为3.1个,图谱的顶点和边数分别为99和10,平均连接数为43.1。这种设计使得数据集能够全面反映文本游戏中的知识动态变化,为模型训练提供了丰富的上下文信息。
使用方法
使用TextWorld KG数据集时,首先需要下载并解压数据集文件,其中包含训练、验证和测试集的JSON文件。每个JSON文件中的每一行代表一个数据点,包含前一步的三元组图谱、动作、当前观察和目标命令。用户可以通过解析这些JSON文件,提取所需的信息进行模型训练或评估。该数据集特别适用于研究动态知识图谱的构建和推理任务,用户可以根据具体需求设计模型,利用数据集中的图谱更新命令和观察信息进行知识推理和预测。
背景与挑战
背景概述
TextWorld KG数据集由Mikulas Zelinka等研究人员于2019年提出,旨在解决文本游戏中的动态知识图谱构建问题。该数据集是论文《Building Dynamic Knowledge Graphs from Text-based Games》的核心成果,并作为后续研究《Learning Dynamic Knowledge Graphs to Generalize on Text-based Games》的基础数据。数据集通过捕捉文本游戏中的观察、动作和知识图谱更新,为研究智能体在复杂文本环境中的推理和决策能力提供了重要支持。其构建过程涉及大量文本游戏数据的处理与分析,推动了自然语言处理与知识图谱领域的交叉研究。
当前挑战
TextWorld KG数据集在解决文本游戏中的动态知识图谱构建问题时,面临多重挑战。首先,文本游戏中的观察和动作具有高度不确定性和多样性,如何准确捕捉并建模这些信息成为一大难题。其次,知识图谱的动态更新要求模型能够实时处理复杂的图结构变化,这对算法的效率和准确性提出了更高要求。在数据集的构建过程中,研究人员还需处理大量非结构化文本数据,确保数据的一致性和完整性。此外,如何将文本信息有效转化为图结构数据,并在不同游戏场景中实现泛化,也是该数据集面临的核心挑战之一。
常用场景
经典使用场景
TextWorld KG数据集在文本游戏领域的研究中扮演着重要角色,尤其是在构建动态知识图谱方面。该数据集通过捕捉游戏中的文本交互,为研究者提供了一个丰富的实验平台,用于探索如何从文本游戏中提取和更新知识图谱。其经典使用场景包括训练和评估智能代理在复杂文本环境中的推理能力,以及研究如何通过自然语言处理技术动态构建和更新知识图谱。
实际应用
在实际应用中,TextWorld KG数据集为开发智能对话系统和游戏AI提供了重要支持。通过利用该数据集,开发者可以训练出能够在复杂文本环境中进行有效推理的智能代理,从而提升游戏体验和用户交互的智能化水平。此外,该数据集还可用于教育领域,帮助学生通过文本游戏学习知识图谱的构建与推理技术。
衍生相关工作
TextWorld KG数据集衍生了一系列经典研究工作,尤其是在动态知识图谱构建和文本游戏推理领域。例如,基于该数据集的研究提出了多种知识图谱更新算法,进一步推动了文本游戏中的智能代理发展。此外,该数据集还被用于探索多模态知识图谱的构建,结合文本与视觉信息,为更复杂的推理任务提供了新的研究思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作