five

KnowHowDataset

收藏
github2022-07-12 更新2024-05-31 收录
下载链接:
https://github.com/paolo7/KnowHowDataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了从wikiHow和Snapguide网站提取的多种指令数据,按流行度和质量分类。数据集详细描述了每个指令的输入、输出和步骤链接,以及相关的分类和实体信息。

This dataset comprises a variety of instructional data extracted from the wikiHow and Snapguide websites, categorized by popularity and quality. It provides detailed descriptions of the inputs, outputs, and step-by-step links for each instruction, along with relevant classification and entity information.
创建时间:
2016-04-21
原始信息汇总

数据集概述

数据集名称

  • The Web of Know-How: Human Instructions Dataset

数据集来源

引用信息

  • 引用格式:Paolo Pareti, Benoit Testu, Ryutaro Ichise, Ewan Klein and Adam Barker. Integrating Know-How into the Linked Data Cloud. Knowledge Engineering and Knowledge Management, volume 8876 of Lecture Notes in Computer Science, pages 385-396. Springer International Publishing (2014)

数据集描述

  • 数据基于PROHOW词汇表表示。
  • 数据提取自现有网络资源,并使用Open Annotation规范链接到原始资源。

可用数据集

指令数据集

  • wikiHow指令:包含从1of11_knowhow_wikihow9of11_knowhow_wikihow的数据集,按流行度排序,最流行和高质量的指令位于9of11_knowhow_wikihow
  • Snapguide指令:包含从10of11_knowhow_snapguide11of11_knowhow_snapguide的数据集,未按流行度排序,由单个用户创建,可能包含更多噪声。

链接数据集

  • Process - Inputs:包含指令集输入的详细信息,链接到DBpedia资源。
  • Process - Outputs:包含指令集输出的详细信息,链接到DBpedia资源。
  • Process - Step Links:包含不同指令集之间的链接。

其他数据集

  • wikiHow categories hierarchy:包含wikiHow类别层次结构信息及其与Snapguide类别的关联。
  • instruction set entities:列出指令集中的顶级实体。
  • wikiHow community links:列出wikiHow社区用户手动创建的不同指令集实体间的链接。

数据模型

  • 数据模型示例展示了PROHOW词汇表在数据集中的应用。

统计信息

  • 23,033,490 三元组数量。
  • 2,610,223 标记的RDF节点数量。
  • 215,959 指令数量,其中77%来自wikiHow,23%来自Snapguide。
  • 255,101 过程输入数量,链接到8,453个DBpedia概念。
  • 4,467 过程输出数量,链接到3,439个DBpedia概念。
  • 193,701 步骤链接数量,涉及114,166个不同指令集。

数据集版本

  • 多语言版本包含超过800K指令,支持16种不同语言,可在Kaggle获取。
搜集汇总
数据集介绍
main_image_url
构建方式
KnowHowDataset的构建源于The Web of Know-How项目,旨在将人类操作指南整合至关联数据云中。该数据集通过从wikiHow和Snapguide等网站提取指令数据,并利用PROHOW词汇表进行数据表示。数据提取过程中,原始资源通过Open Annotation规范进行链接,确保了数据的可追溯性和一致性。此外,数据集还包含了手动评估数据,进一步提升了数据的可靠性和质量。
特点
KnowHowDataset的特点在于其广泛的数据来源和丰富的结构信息。数据集包含了来自wikiHow和Snapguide的215,959条指令,其中77%来自wikiHow,23%来自Snapguide。这些指令按照流行度排序,高质量的指令集中在9of11_knowhow_wikihow中。数据集还详细记录了指令的输入、输出及步骤间的链接,并关联了DBpedia资源,提供了丰富的语义信息。此外,数据集还包含了wikiHow类别层次结构和社区链接,进一步增强了数据的结构化和关联性。
使用方法
KnowHowDataset的使用方法多样,用户可以通过SPARQL查询语言访问和分析数据。数据集提供了示例SPARQL查询和SPARQL端点,方便用户进行数据探索。此外,用户还可以使用HowLinks工具对数据集进行图形化可视化,直观展示数据及其与DBpedia的链接关系。对于多语言需求,数据集还提供了包含16种语言的800K指令的多语言版本。用户可以根据需求选择下载特定文件,如9of11_knowhow_wikihow等高质量数据文件,以便快速进行实验和分析。
背景与挑战
背景概述
KnowHowDataset是由Paolo Pareti、Benoit Testu、Ryutaro Ichise、Ewan Klein和Adam Barker等研究人员于2014年创建的,作为'The Web of Know-How'项目的一部分。该数据集旨在将人类指令知识整合到Linked Data Cloud中,涵盖了从wikiHow和Snapguide等网站提取的指令数据。数据集基于PROHOW词汇表构建,并通过Open Annotation规范与原始资源链接。其核心研究问题在于如何有效地组织和表示人类指令知识,以便于机器理解和处理。该数据集在知识工程和知识管理领域具有重要影响力,为自动化任务执行和知识推理提供了丰富的资源。
当前挑战
KnowHowDataset面临的挑战主要包括两个方面。首先,在领域问题方面,尽管数据集提供了大量的人类指令数据,但如何从这些数据中提取出结构化的知识并应用于实际任务仍是一个难题。例如,指令的多样性和复杂性使得机器难以准确理解和执行。其次,在构建过程中,数据集从wikiHow和Snapguide等社区生成的内容中提取数据,这些内容的质量参差不齐,尤其是Snapguide的指令由于缺乏同行评审,噪声较多。此外,数据集的规模庞大,包含超过2300万条三元组,如何高效地存储、查询和更新这些数据也是一个技术挑战。
常用场景
经典使用场景
KnowHowDataset作为人类指令的集合,广泛应用于知识工程和语义网领域。该数据集通过整合来自wikiHow和Snapguide的指令,为研究人员提供了一个丰富的资源,用于探索如何将人类知识结构化并链接到现有的语义网资源中。其经典使用场景包括知识图谱构建、语义搜索优化以及自动化任务执行系统的开发。
衍生相关工作
KnowHowDataset的发布催生了一系列相关研究,特别是在知识图谱和语义网领域。许多研究基于该数据集开发了新的算法和工具,用于知识抽取、语义链接和任务自动化。例如,HowLinks工具便是基于该数据集开发的,用于可视化数据集及其与DBpedia的链接关系。这些工作进一步推动了语义网技术的发展和应用。
数据集最近研究
最新研究方向
近年来,KnowHowDataset在知识图谱和自然语言处理领域的研究方向主要集中在如何更有效地利用人类指令数据进行知识表示和推理。该数据集通过PROHOW词汇表将来自wikiHow和Snapguide的指令数据与DBpedia资源进行链接,为研究者提供了丰富的结构化知识。当前的研究热点包括基于这些指令数据的多语言知识图谱构建、跨领域知识迁移以及自动化任务分解与规划。此外,随着多语言版本的推出,研究者们正探索如何利用这些多语言指令数据来提升跨语言知识共享和机器翻译的效果。这些研究不仅推动了知识工程的发展,也为智能助手和自动化系统提供了更为精准的指令理解和执行能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作