five

基于知识图谱的数据清洗数据集

收藏
国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64edfcffbb16e0300cd4e297&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
为了测试数据清洗技术的效果,测试数据集主要包括数据表数据部分和知识图谱数据部分。数据表部分提取 kaggle 数据集中具有较大元组的模拟关系型足球数据库,即该数据集的子集。知识图谱数据部分,使用 7lore 知识图谱数据的子集,其数据以<实体、属性、值>和<实体、关系、实体>三元组的形式组织。提取的7lore 知识图谱数据的子集基本覆盖 提取的kaggle 数据集的子集中的数据和关系,可用于数据表的数据清洗工作。

To test the effectiveness of data cleaning techniques, this test dataset mainly consists of two parts: tabular data and knowledge graph data. The tabular data section is a subset extracted from a simulated relational football database with large tuples sourced from Kaggle datasets. For the knowledge graph data part, a subset of the 7lore knowledge graph dataset is used, which is organized in the formats of <entity, attribute, value> and <entity, relationship, entity> triples. The extracted subset of 7lore knowledge graph data basically covers all data and relationships within the extracted subset of the Kaggle dataset, and can be applied to tabular data cleaning work.
提供机构:
电子科技大学
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个基于知识图谱的数据清洗测试集,包含来自kaggle的关系型足球数据库子集和7lore知识图谱子集,用于支持数据表的数据清洗工作。数据集由电子科技大学的杨键创建,数据量为390.96KB,包含2个文件。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务