YAGO|知识图谱数据集|数据整合数据集
收藏
- YAGO首次发表,由德国马克斯·普朗克研究所的研究团队开发,旨在整合维基百科和WordNet的知识,构建一个大规模的语义知识库。
- YAGO 1.0版本发布,包含超过100万个实体和500万个事实,标志着该数据集在知识图谱领域的初步应用。
- YAGO 2.0版本发布,数据集规模扩展至超过1000万个实体和1.2亿个事实,显著提升了其在语义搜索和问答系统中的应用价值。
- YAGO 3.0版本发布,引入了时间信息和地理信息,使得数据集在时态推理和地理信息系统中的应用更加广泛。
- YAGO 4.0版本发布,进一步优化了数据质量和规模,支持更多的实体类型和关系,增强了其在人工智能和大数据分析中的应用潜力。
- 1YAGO: A Core of Semantic KnowledgeMax Planck Institute for Informatics · 2007年
- 2YAGO: A Large Ontology from Wikipedia and WordNetMax Planck Institute for Informatics · 2008年
- 3YAGO3: A Knowledge Base from Multilingual WikipediasMax Planck Institute for Informatics · 2016年
- 4Knowledge Graph Completion with Adaptive Sparse Transfer MatrixTsinghua University · 2016年
- 5A Review of Relational Machine Learning for Knowledge GraphsUniversity of Cambridge · 2015年
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
UCI Wine
UCI Wine数据集包含了178个样本,每个样本有13个特征,用于分类任务。这些特征包括葡萄酒的化学成分,如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。
archive.ics.uci.edu 收录