five

openworld-domains/conceptnet-full-en-essentials

收藏
Hugging Face2023-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/openworld-domains/conceptnet-full-en-essentials
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是ConceptNet的简化版本,专注于英语概念及其来源,保留了关系的基本信息,适合计算资源有限的场景。数据集结构包括多个字段,如start_text、relation_text、end_text等,用于描述概念之间的关系。数据集采用CC BY-SA 4.0许可,用户需在使用时进行适当的引用和致谢。
提供机构:
openworld-domains
原始信息汇总

Conceptnet Full EN (essentials)

数据集概述

该数据集是ConceptNet的一个紧凑和简化版本,强调英语概念及其来源。它保留了关系的基本信息,格式简单且用户友好。设计用于高效和易于使用,特别适合计算资源受限的场景。原始ConceptNet数据库超过20GB,而这个精简版本仅为500MB,使得在较弱的计算机或服务器上运行成为可能,同时不牺牲英语知识中心的丰富性。

动机

该数据集的起源在于一项全面研究,旨在提高AI系统对英语概念的消歧能力。在语言的广阔领域中,术语经常根据上下文采用不同的含义,使得个人难以涵盖单个术语的所有可能解释。ConceptNet通过其概念及其来源之间丰富关系,提供了一个独特的视角来导航和理解这些多层含义。通过将这个庞大的知识库浓缩成更简洁和易于访问的格式,我们的分析不仅更快,而且更节省资源。认识到其对更广泛社区的潜在价值,我们觉得有必要公开分享这个数据集。

数据集结构

在深入特定字段之前,重要的是要理解该数据集中的每个条目都捕捉了一个关系。这个关系可以是两个英语概念之间的关系,或者是英语概念与其外部来源(URL)之间的关系。这些关系通过一组字段详细说明,这些字段提供了文本和URI标识符,以及量化关系强度或重要性的权重。

示例

plaintext start_text: areligious relation_text: Antonym end_text: religious start_uri: /c/en/areligious/a relation_uri: /r/Antonym end_uri: /c/en/religious weight: 1

字段

  • start_text: 关系中起始概念的文本表示。
  • relation_text: 关系类型的文本描述,无论是两个概念之间的关系还是一个概念与其来源之间的关系。
  • end_text: 关系中结束概念或外部URL的文本表示。
  • surfaceText: 一个可读的句子或短语,说明start_textend_text概念之间的关系。
  • start_uri: 起始概念的唯一URI标识符。
  • relation_uri: 关系类型的唯一URI标识符。这个URI可以用来理解关系的性质。
  • end_uri: 结束概念或外部URL的唯一URI标识符。
  • weight: 表示关系强度或重要性的数值。权重由支持关系的来源数量和这些来源的可靠性得出。权重越高,表示知识库中关系的共识越强或证据越充分。

注意: 数据集包含多个自循环关系。这些关系存在于原始ConceptNet数据中,决定保留在这个紧凑版本中。

许可和归属

该数据集在Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)下发布。用户可以自由使用、修改和分发数据集,前提是给予适当的原始来源信用,并在进行更改时进行说明。在使用时,请引用原始ConceptNet数据和这个紧凑版本。

致谢

衷心感谢ConceptNet团队创建了一个全面的知识库,为这个数据集奠定了基础。

对于学术用途,建议如下引用原始ConceptNet工作:

Robyn Speer et al. ConceptNet 5. Available at: ConceptNet GitHub Repository.

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作