openworld-domains/conceptnet-full-en-essentials
收藏Conceptnet Full EN (essentials)
数据集概述
该数据集是ConceptNet的一个紧凑和简化版本,强调英语概念及其来源。它保留了关系的基本信息,格式简单且用户友好。设计用于高效和易于使用,特别适合计算资源受限的场景。原始ConceptNet数据库超过20GB,而这个精简版本仅为500MB,使得在较弱的计算机或服务器上运行成为可能,同时不牺牲英语知识中心的丰富性。
动机
该数据集的起源在于一项全面研究,旨在提高AI系统对英语概念的消歧能力。在语言的广阔领域中,术语经常根据上下文采用不同的含义,使得个人难以涵盖单个术语的所有可能解释。ConceptNet通过其概念及其来源之间丰富关系,提供了一个独特的视角来导航和理解这些多层含义。通过将这个庞大的知识库浓缩成更简洁和易于访问的格式,我们的分析不仅更快,而且更节省资源。认识到其对更广泛社区的潜在价值,我们觉得有必要公开分享这个数据集。
数据集结构
在深入特定字段之前,重要的是要理解该数据集中的每个条目都捕捉了一个关系。这个关系可以是两个英语概念之间的关系,或者是英语概念与其外部来源(URL)之间的关系。这些关系通过一组字段详细说明,这些字段提供了文本和URI标识符,以及量化关系强度或重要性的权重。
示例
plaintext start_text: areligious relation_text: Antonym end_text: religious start_uri: /c/en/areligious/a relation_uri: /r/Antonym end_uri: /c/en/religious weight: 1
字段
- start_text: 关系中起始概念的文本表示。
- relation_text: 关系类型的文本描述,无论是两个概念之间的关系还是一个概念与其来源之间的关系。
- end_text: 关系中结束概念或外部URL的文本表示。
- surfaceText: 一个可读的句子或短语,说明
start_text和end_text概念之间的关系。 - start_uri: 起始概念的唯一URI标识符。
- relation_uri: 关系类型的唯一URI标识符。这个URI可以用来理解关系的性质。
- end_uri: 结束概念或外部URL的唯一URI标识符。
- weight: 表示关系强度或重要性的数值。权重由支持关系的来源数量和这些来源的可靠性得出。权重越高,表示知识库中关系的共识越强或证据越充分。
注意: 数据集包含多个自循环关系。这些关系存在于原始ConceptNet数据中,决定保留在这个紧凑版本中。
许可和归属
该数据集在Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)下发布。用户可以自由使用、修改和分发数据集,前提是给予适当的原始来源信用,并在进行更改时进行说明。在使用时,请引用原始ConceptNet数据和这个紧凑版本。
致谢
衷心感谢ConceptNet团队创建了一个全面的知识库,为这个数据集奠定了基础。
对于学术用途,建议如下引用原始ConceptNet工作:
Robyn Speer et al. ConceptNet 5. Available at: ConceptNet GitHub Repository.



