FB15k / FB15k-237|知识图谱数据集|实体匹配数据集
收藏数据集概述
1. 数据集名称及目的
- 名称: Datasets for Knowledge Graph Completion with Textual Information about Entities
- 目的: 提供知识图谱完成任务中实体的文本信息。
2. 数据集内容
-
主要数据集: FB15k / FB15k-237
- 来源: 基于Freebase知识图谱,通过匹配Wikidata实体获取元数据。
- 处理方法: 使用Wikidata中的
freebase_id
关系匹配实体,未能匹配的实体通过DBPedia查询。 - 缺失信息: 约40个实体无法找到文本信息。
- 元数据文件:
entity2wikidata.json
,包含Freebase实体的元数据。
-
其他数据集: 存放在
other/
目录下,主要为小型KGC(Knowledge Graph Completion)数据集,未进行文本匹配。
3. 数据集处理方法
- 实体匹配: 使用Python脚本
freebase2wikidata
,通过SPARQL查询和Wikidata服务,将Freebase ID映射到Wikidata实体。 - 文本信息获取: 通过Wikidata和DBPedia查询,获取实体的标签、描述、替代标签和维基百科链接。
4. 数据集使用注意事项
- 正确性: 数据集提供者未验证信息的正确性,使用时需谨慎。
5. WN18 / WN18RR数据集
- 来源: 从TimDettmers/ConvE获取WN18RR数据集,WN18数据集从GitHub获取。
- 问题: WN18数据集存在80%以上的测试三元组在训练集中有另一种关系,不适用于研究评估。
- 文本转换: 将WordNet偏移量转换回WordNet同义词集,通过验证关系是否成立来解决实体的歧义问题。
结论
该数据集主要用于知识图谱完成任务,提供了实体的文本信息,但需注意数据正确性和特定数据集的使用限制。

GetData.IO - finance - Google Search
GetData.IO -
getdata.io 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Ansh007/Jellyfish-Image-Dataset
该数据集包含900张水母图像,分为六个不同的类别和物种:紫水母、月亮水母、桶水母、蓝水母、罗盘水母和狮鬃水母。这些图像可用于机器学习技术,以获得水母分类、物种识别和颜色分析的洞察。每个物种都有详细的描述,包括其特征和食物来源。此外,数据集还提供了使用案例,如水母分类、物种识别和颜色分析。
hugging_face 收录
Global Climate Risk Index (CRI)
全球气候风险指数(CRI)是一个评估各国气候变化相关风险的指数。该数据集提供了各国在特定年份内因极端天气事件(如洪水、干旱、风暴等)所遭受的经济损失、死亡人数以及受影响人口的数据。此外,还包括了各国应对气候变化的能力和脆弱性分析。
www.germanwatch.org 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录