five

YAGO (Yet Another Great Ontology)|知识图谱数据集|自然语言处理数据集

收藏
OpenDataLab2025-03-29 更新2024-05-09 收录
知识图谱
自然语言处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/YAGO
下载链接
链接失效反馈
资源简介:
Yet Another Great Ontology (YAGO) 是一种知识图,它使用从 Wikipedia 中提取的常见知识事实来增强 WordNet,将 WordNet 从主要语言资源转换为共同知识库。 YAGO 最初由超过 100 万个实体和 500 万个描述这些实体之间关系的事实组成。 YAGO2 基于时间和空间中的实体、事实和事件,包含约 980 万个实体的 4.46 亿个事实,而 YAGO3 从非英语维基百科文章中添加了约 100 万个实体。 YAGO3-10 YAGO3 的子集,包含每个实体至少有 10 个关系。
提供机构:
OpenDataLab
创建时间:
2022-08-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
YAGO(Yet Another Great Ontology)数据集的构建基于大规模的文本语料库和结构化数据源,如维基百科和WordNet。通过自然语言处理技术,YAGO从这些资源中提取实体和关系,并将其映射到预定义的本体结构中。具体而言,YAGO利用实体识别和关系抽取算法,从文本中识别出实体及其属性,并将这些信息与已有的知识库进行对齐,从而构建出一个丰富且结构化的知识图谱。
特点
YAGO数据集以其高精度和丰富的实体关系著称。它不仅涵盖了广泛的知识领域,还具有高度的结构化特性,使得数据易于查询和分析。此外,YAGO的实体和关系具有较高的准确性,得益于其基于权威数据源的构建方式。数据集中的实体类型多样,包括人物、地点、事件等,且每个实体都关联有详细的信息和属性,为知识推理和数据挖掘提供了坚实的基础。
使用方法
YAGO数据集适用于多种知识图谱相关的研究和应用场景。研究者可以利用其丰富的实体和关系进行知识推理、实体链接和语义搜索等任务。在实际应用中,YAGO可用于构建智能问答系统、推荐系统和语义搜索引擎等。使用YAGO时,用户可以通过SPARQL等查询语言访问数据集中的信息,也可以将其导入到图数据库中进行更复杂的分析和挖掘。
背景与挑战
背景概述
YAGO(Yet Another Great Ontology)数据集,由德国马克斯·普朗克研究所的Christian Bizer和团队于2007年创建,是一个融合了维基百科、WordNet和GeoNames等资源的知识图谱。其核心研究问题在于构建一个高质量、多语言、跨领域的本体论,以支持复杂的信息检索和知识推理任务。YAGO不仅丰富了语义网的基础设施,还为人工智能和自然语言处理领域提供了宝贵的资源,推动了知识表示与推理技术的发展。
当前挑战
YAGO数据集在构建过程中面临多重挑战。首先,如何从异构数据源中提取和整合高质量的知识实体与关系,确保信息的准确性和一致性,是一个复杂的问题。其次,多语言支持要求数据集在不同语言间保持语义的连贯性,这需要强大的跨语言映射和翻译技术。此外,随着数据量的增长,如何高效地管理和更新知识图谱,以应对实时变化的信息环境,也是一项持续的挑战。
发展历史
创建时间与更新
YAGO(Yet Another Great Ontology)数据集于2007年首次发布,由德国马克斯·普朗克研究所的科研团队创建。自发布以来,YAGO经历了多次重大更新,最近一次主要更新发生在2020年,进一步增强了其知识图谱的规模和准确性。
重要里程碑
YAGO的创建标志着知识图谱领域的一个重要里程碑,它首次将维基百科、WordNet和GeoNames等多个数据源整合到一个统一的知识库中。2012年,YAGO2的发布引入了时间信息和事实的时态属性,极大地提升了数据集的实用性和复杂性。2015年,YAGO3的推出进一步扩展了实体和关系的覆盖范围,使其成为知识图谱研究中的重要参考资源。
当前发展情况
当前,YAGO数据集已成为知识图谱和语义网研究的核心资源之一,广泛应用于自然语言处理、信息检索和数据挖掘等领域。其持续的更新和扩展确保了数据集的时效性和准确性,为学术界和工业界提供了丰富的知识资源。YAGO的发展不仅推动了知识图谱技术的进步,也为跨领域的知识融合和应用提供了坚实的基础。
发展历程
  • YAGO首次发表,由德国马克斯·普朗克研究所的科研团队开发,旨在整合维基百科和WordNet的知识,构建一个大规模的语义知识库。
    2007年
  • YAGO 1.0版本发布,包含超过100万个实体和500万个事实,标志着该数据集在语义网领域的初步应用。
    2008年
  • YAGO 2.0版本发布,数据集规模扩展至超过1000万个实体和1.2亿个事实,显著提升了其在知识图谱中的应用价值。
    2012年
  • YAGO 3.0版本发布,引入了时间信息和地理信息,使得数据集在时序和地理知识表示方面更加丰富和精确。
    2015年
  • YAGO 4.0版本发布,进一步优化了数据质量和结构,增强了其在自然语言处理和人工智能领域的应用潜力。
    2018年
常用场景
经典使用场景
在知识图谱领域,YAGO(Yet Another Great Ontology)数据集以其丰富的实体和关系信息而著称。该数据集经典的使用场景之一是用于构建和扩展知识图谱,通过整合来自维基百科、WordNet和GeoNames等多个来源的信息,YAGO能够提供高质量的实体分类和关系推理,从而支持复杂的语义查询和知识推理任务。
解决学术问题
YAGO数据集在学术研究中解决了多个关键问题,特别是在知识表示和推理领域。它通过提供结构化的知识库,帮助研究人员克服了传统文本数据在语义理解和推理上的局限性。YAGO的实体分类和关系定义为知识图谱的构建提供了坚实的基础,推动了诸如实体消歧、关系抽取和语义搜索等前沿研究的发展。
衍生相关工作
YAGO数据集的发布催生了大量相关研究和工作,特别是在知识图谱和语义网领域。许多研究者基于YAGO构建了新的知识图谱扩展方法,如YAGO2和YAGO3,进一步提升了数据集的覆盖范围和准确性。此外,YAGO还启发了许多关于知识图谱推理和知识融合的研究,推动了该领域的技术进步和应用创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

diegopdlv5/test_dataset_0049c

该数据集主要包含音频数据,分为训练集,共有135个样本,总大小为51580253字节。下载大小为51573551字节。

hugging_face 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

World Development Indicators (WDI)

世界发展指标(World Development Indicators, WDI)是由世界银行发布的一个综合数据集,涵盖了全球200多个国家和地区的经济、社会和环境指标。数据集包括人口统计、教育、健康、经济、环境等多个领域的指标,旨在提供全球发展状况的全面视图。

databank.worldbank.org 收录