dataset-ndjson

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/swhume/dataset-ndjson

下载链接

链接失效反馈

官方服务：

资源简介：

这些程序从现有的Dataset-JSON数据集示例生成NDJSON文件，创建dataset-ndjson数据集。dataset-ndjson，即新行分隔的JSON，旨在简化流式传输大型数据集，使得数据集可以轻松地逐行读取或写入。大多数语言都有可以读取大型JSON数据集作为流的库，但在没有此类库可用的情况下，ndjson格式使得程序可以轻松地逐行读取和写入。目前正在讨论向Dataset-JSON标准添加对ndjson的支持。

These programs generate NDJSON files from existing Dataset-JSON dataset examples, creating the dataset-ndjson dataset. Dataset-ndjson, or Newline Delimited JSON, is designed to simplify the streaming of large datasets, allowing datasets to be easily read or written line by line. Most programming languages have libraries capable of reading large JSON datasets as streams, but in cases where such libraries are not available, the ndjson format enables programs to easily read and write data line by line. There is currently ongoing discussion about adding support for ndjson to the Dataset-JSON standard.

创建时间：

2023-11-29

原始信息汇总

数据集概述

数据集格式

类型: NDJSON (New-line Delimited JSON)
目的: 简化大型数据集的流式处理，允许逐行读写，无需将整个数据集加载到内存中。
特点: 每行是一个有效的JSON对象，使用UTF-8编码，通过换行符( 或0x0A)分隔。

数据集内容

内容一致性: NDJSON与JSON格式的数据内容相同，仅格式不同。
结构:
- 第一行: 从数据集属性创建一个JSON对象，包含所有列和行属性。
- 第二行: 从列属性中提取变量元数据定义，创建一个包含这些定义的JSON对象。
- 第三行至n行: 为每个数据行创建一个数组。

数据集转换

转换工具:
- JSON2NDJSON.py: 从CDISC DataExchange-DatasetJSON GitHub仓库获取示例数据集，并将其从JSON转换为NDJSON。
- NDJSON2JSON.py: 将此项目中的NDJSON数据集转换回JSON格式，用于往返测试。
- NDJSON2csv: 将此项目中的NDJSON数据集转换为CSV格式。
- validate_NDJSON.py: 验证NDJSON示例文件是否符合LinkMl模型。
- validate_JSON.py: 验证JSON示例文件是否符合LinkML模型。

示例数据集

位置: examples/NDJSON 文件夹
扩展名: .NDJSON
内容: 与JSON版本相同，仅格式转换。

搜集汇总

数据集介绍

构建方式

NDJSON格式的数据集构建基于Dataset-JSON标准，旨在简化大规模数据集的流式处理。构建过程中，首先将元数据（包括数据集属性和列定义）封装为第一个JSON对象，随后每一行数据被转换为一个独立的JSON数组。这种逐行处理的方式使得数据集可以在不加载整个文件到内存的情况下进行读取和写入，特别适用于处理大规模数据。

特点

NDJSON格式的数据集具有显著的特点，其每一行均为独立的JSON对象，便于逐行解析和处理。这种格式不仅支持流式处理，还允许在数据交换时灵活选择JSON或NDJSON格式。由于NDJSON与JSON内容一致，转换过程简单且高效，适用于需要高效处理大规模数据的场景。此外，NDJSON格式支持UTF-8编码，确保了数据的兼容性和可扩展性。

使用方法

使用NDJSON格式的数据集时，可通过编程语言中的流式处理库逐行读取或写入数据。数据集的第一行包含元数据，后续每一行为数据行，均可独立解析。为方便使用，提供了多种工具脚本，如将JSON转换为NDJSON的`json2ndjson.py`，以及将NDJSON转换为CSV的`ndjson2csv`等。这些工具支持数据格式的灵活转换和验证，确保数据处理的准确性和高效性。

背景与挑战

背景概述

NDJSON（New-line Delimited JSON）是一种用于简化大规模数据集流式传输的格式，旨在解决传统JSON格式在处理大规模数据时内存占用过高的问题。该格式由Dataset-JSON标准衍生而来，最早由CDISC（临床数据交换标准协会）等机构在数据交换场景中推广使用。NDJSON格式的核心优势在于其逐行处理的能力，使得数据可以在不加载整个数据集的情况下进行流式读取和写入。这一特性使其在数据交换、大数据处理等领域具有广泛的应用前景，尤其是在需要高效处理大规模数据集的场景中。

当前挑战

尽管NDJSON格式在流式数据处理中表现出色，但其在实际应用中仍面临诸多挑战。首先，NDJSON格式的推广依赖于编程语言对逐行读取JSON的支持，若某些语言缺乏相关库或性能不佳，则可能导致数据处理效率低下。其次，NDJSON与JSON格式之间的转换虽然理论上简单，但在实际应用中可能因数据结构的复杂性而引发兼容性问题。此外，NDJSON格式的标准化程度尚需进一步提升，以确保不同系统间的数据交换无缝衔接。最后，NDJSON格式的验证和校验工具仍需完善，以应对大规模数据集的准确性和一致性问题。

常用场景

经典使用场景

在数据交换和流处理场景中，dataset-ndjson数据集通过其NDJSON格式简化了大规模数据集的传输与处理。NDJSON格式允许逐行读取或写入数据，避免了将整个数据集加载到内存中的需求，特别适用于内存受限或需要高效数据流处理的系统。这种格式的灵活性使得它在数据密集型应用和实时数据处理中表现出色。

衍生相关工作

dataset-ndjson数据集推动了多个相关领域的研究与应用。例如，基于NDJSON格式的数据流处理框架和工具得到了广泛开发，如Apache Kafka和Flink等流处理平台。此外，该数据集还促进了数据格式转换工具的开发，如json2ndjson.py和ndjson2csv等，这些工具进一步扩展了NDJSON格式的应用范围。

数据集最近研究