RealNest
收藏github2024-05-30 更新2024-05-31 收录
下载链接:
https://github.com/cwida/RealNest
下载链接
链接失效反馈官方服务:
资源简介:
RealNest数据集是一个从真实世界数据集中收集的嵌套数据集合,旨在帮助基准测试和评估支持嵌套数据类型的系统。该数据集提供动态和静态两种版本,包含多个表,每个表都有其特定的架构和数据文件。
The RealNest dataset is a collection of nested data gathered from real-world datasets, designed to assist in benchmarking and evaluating systems that support nested data types. This dataset offers both dynamic and static versions, encompassing multiple tables, each with its specific schema and data files.
创建时间:
2024-05-21
原始信息汇总
数据集概述
数据集名称
RealNest
数据集描述
RealNest是一个由真实世界数据集衍生的嵌套数据集合,旨在帮助计算机科学研究人员基准和评估支持嵌套数据类型的数据系统和数据格式。
数据集内容
- 数据生成方式:提供一个脚本,用于下载和生成数据。
- 静态数据集:在CWI网站上提供两个静态数据集,格式为
.jsonl.gz,大小分别为64 * 1024和10 * 64 * 1024行。 - 样本数据:本仓库内的
sample-data目录包含每个表的前1024行和100 MiB数据,作为预览。
数据集结构
- 文件类型:
schema.json:表的架构,包含列信息。data.jsonl或data.jsonl.gz:表的数据,采用JSON Lines格式(可选Gzip压缩)。
数据集来源
数据集来源于多个公开数据源,包括但不限于:
- Amazon Berkeley Objects
- AWS Public Blockchain Data
- Data Lake as Code
- CORD-19
- Daylight Map Distribution of OpenStreetMap
- GitHub Archive
- CERN Open Data
- Overture Maps Foundation Open Map Data
- Twitter Stream Archive
许可证
本GitHub仓库(除sample-data文件夹下的文件外)遵循CC-NC-SA许可证。静态数据集和样本数据集的许可证与原始数据集相同。
搜集汇总
数据集介绍

构建方式
RealNest数据集的构建基于从多个真实世界数据集中提取的嵌套数据。该数据集通过一个脚本自动下载和处理原始数据,将其转换为统一的格式。具体而言,脚本从如Amazon Berkeley Objects、AWS Public Blockchain Data、CORD-19等公开数据源中获取数据,并将其处理为支持嵌套数据类型的通用格式。此外,为了便于标准化比较,RealNest还提供了两个静态数据集,分别包含64 * 1024和10 * 64 * 1024行数据,这些数据以.jsonl.gz格式存储,并托管在CWI网站上。
特点
RealNest数据集的主要特点在于其多样性和真实性。该数据集汇集了来自不同领域的真实世界数据,包括计算机视觉、区块链、自然语言处理等,确保了数据的广泛应用性。此外,数据集支持嵌套数据类型,如列表、结构体和映射,这使得它非常适合用于评估和基准测试支持复杂数据结构的系统。数据集还提供了预览样本,便于用户快速了解其内容和结构。
使用方法
使用RealNest数据集时,用户可以通过提供的脚本下载和生成数据,或直接访问CWI网站上的静态数据集。每个数据表包含一个schema.json文件,描述表的结构,以及一个data.jsonl或data.jsonl.gz文件,存储实际数据。用户可以根据需要选择合适的数据集大小,并利用这些数据进行系统性能评估、数据格式比较等研究。此外,数据集的开放源代码性质允许用户根据最新数据源更新和扩展数据集。
背景与挑战
背景概述
RealNest数据集是由CWI(Centrum Wiskunde & Informatica)的研究人员于2024年中期创建的,旨在为计算机科学领域的研究人员提供一个用于基准测试和评估支持嵌套数据类型的数据系统和数据格式的资源。该数据集的核心研究问题是如何有效处理和分析来自真实世界数据集的嵌套数据,这对于推动数据科学和数据库管理系统的发展具有重要意义。RealNest的创建不仅促进了数据处理技术的进步,还为相关领域的研究提供了宝贵的资源。
当前挑战
RealNest数据集在构建过程中面临多个挑战。首先,整合来自不同公开数据源的原始数据并将其转换为统一的格式是一个复杂的过程,涉及数据源的多样性和数据格式的差异。其次,随着时间的推移,某些原始数据集可能会变得不可用,这要求数据集的维护者不断更新和调整数据获取策略。此外,处理嵌套数据类型本身就是一个技术难题,需要开发新的算法和工具来有效管理和分析这些复杂的数据结构。最后,确保数据集的可用性和可扩展性也是一个持续的挑战,尤其是在面对不断变化的数据源和技术环境时。
常用场景
经典使用场景
在计算机科学领域,RealNest数据集的经典使用场景主要集中在数据系统和数据格式支持嵌套数据类型的基准测试与评估。研究人员通过该数据集可以系统地比较不同数据处理系统在处理复杂嵌套结构时的性能和效率,从而优化数据存储和查询策略。此外,RealNest还为开发新的数据处理算法和工具提供了丰富的实验数据,促进了数据科学领域的技术创新。
实际应用
在实际应用中,RealNest数据集被广泛用于优化企业级数据处理系统。例如,在金融、医疗和电子商务等行业,数据通常以复杂的嵌套结构存在。通过使用RealNest进行系统性能测试和优化,企业能够更高效地管理和分析这些数据,从而提升业务决策的准确性和响应速度。此外,RealNest还支持开发新的数据处理工具和平台,进一步推动了数据驱动的业务创新。
衍生相关工作
基于RealNest数据集,许多相关研究工作得以展开。例如,有研究利用该数据集开发了新的数据压缩和查询优化算法,显著提升了数据处理效率。此外,还有工作探讨了如何利用RealNest中的嵌套数据结构进行机器学习模型的训练,从而在自然语言处理和图像识别等领域取得了突破。这些衍生工作不仅丰富了数据科学的研究内容,也为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成



