vega-datasets

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/vega/vega-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Vega和Vega-Lite示例中使用的数据集集合，数据存储在GitHub和jsDelivr CDN上，用于Vega相关项目的测试和示例。

A collection of datasets used in Vega and Vega-Lite examples, with data stored on GitHub and jsDelivr CDN, intended for testing and examples in Vega-related projects.

创建时间：

2015-10-09

原始信息汇总

数据集概述

Vega Datasets 是一个包含多个数据集的集合，主要用于Vega和Vega-Lite的示例。这些数据集存储在GitHub和jsDelivr CDN上。

数据集来源

数据集的详细来源列表可在 SOURCES.md 文件中找到。

数据集访问方式

HTTP访问: 数据可以直接通过HTTP从GitHub或jsDelivr获取，例如：
- 通用访问：https://vega.github.io/vega-datasets/data/cars.json
- 固定版本访问（推荐）：https://cdn.jsdelivr.net/npm/vega-datasets@2/data/cars.json
- 完整数据集列表：https://cdn.jsdelivr.net/npm/vega-datasets/data/
NPM访问:
- 安装数据集到本地：npm i vega-datasets，数据将存储在node_modules/vega-datasets/data/目录下。
- 获取数据集URL或数据：npm i vega-datasets，然后通过require(vega-datasets)导入数据集，使用data[NAME].url获取URL，或使用data[NAME]()获取数据。

版本管理

补丁版本: 仅在解决格式问题时更新数据。
次要版本: 可能更新数据，但不改变字段名或文件名，也可能添加新数据集。
主要版本: 可能更改文件名、文件内容，或移除、更新文件。

搜集汇总

数据集介绍

构建方式

vega-datasets 数据集的构建旨在为 Vega 和 Vega-Lite 示例提供丰富的数据资源。该数据集的构建过程严格遵循版本控制原则，确保数据的稳定性和一致性。数据集的更新和维护主要通过 npm 包管理器进行，确保了数据的可访问性和可重复使用性。此外，数据集的源文件存储在 GitHub 上，并通过 jsDelivr CDN 提供快速访问，确保了数据的高效分发和使用。

特点

vega-datasets 数据集的一个显著特点是其广泛的应用范围和多样化的数据类型。该数据集不仅包含了常见的结构化数据，如 CSV 和 JSON 格式，还涵盖了多种领域的数据，如地理、金融和生物信息等。此外，数据集的设计考虑了教学和演示目的，部分数据可能包含人为引入的不一致性或错误，以促进数据清洗和质量分析的实践。

使用方法

vega-datasets 数据集的使用方法多样且灵活。用户可以通过 npm 包直接在本地环境中安装和访问数据，也可以通过 HTTP 请求从 GitHub 或 jsDelivr CDN 获取数据。对于 Python 和 Julia 用户，分别提供了专门的包（如 vega_datasets 和 VegaDatasets.jl）来简化数据访问。此外，数据集还支持在 Observable 平台上直接导入和使用，提供了丰富的交互式数据探索工具。

背景与挑战

背景概述

vega-datasets是由Vega项目组创建并维护的一个数据集集合，主要用于Vega和Vega-Lite示例的展示。该数据集的创建旨在为数据可视化领域的研究与教学提供丰富的数据资源。自创建以来，vega-datasets已成为多个相关项目（如Vega、Vega Editor、Vega-Lite、Polestar、Voyager）的测试和示例数据源，极大地促进了数据可视化工具的发展与应用。其数据来源多样，涵盖了从公共数据到专门为教学和演示设计的数据，确保了数据集的广泛适用性和教育价值。

当前挑战

尽管vega-datasets在数据可视化领域具有广泛的应用，但其构建和维护过程中仍面临若干挑战。首先，数据集的多样性要求在更新和维护时保持一致性，避免因数据格式或内容的变化影响依赖项目的正常运行。其次，数据集的版本管理复杂，需严格遵循语义版本控制规则，确保数据变更不会对现有应用造成破坏性影响。此外，数据集的来源多样，需定期验证和清理数据，以确保数据的准确性和适用性。最后，数据集的广泛使用也带来了隐私和安全方面的考虑，需确保数据仅用于教学和演示目的，避免敏感信息泄露。

常用场景

经典使用场景

vega-datasets 数据集在数据可视化领域中被广泛应用于示例和教学目的。其经典使用场景包括在 Vega 和 Vega-Lite 的示例中展示如何通过数据驱动的方式创建复杂的可视化图形。例如，通过使用 'cars.json' 数据集，研究者可以展示不同车型在不同年份的性能变化，从而直观地展示数据分析的结果。

实际应用

在实际应用中，vega-datasets 数据集被广泛用于开发和测试数据可视化工具和库。例如，Vega、Vega-Lite、Polestar 和 Voyager 等项目在开发过程中使用这些数据集进行功能测试和示例展示。此外，Python 和 Julia 社区也通过相应的包（如 vega_datasets 和 VegaDatasets.jl）将这些数据集集成到其生态系统中，以支持更广泛的应用。

衍生相关工作

vega-datasets 数据集的广泛应用催生了多个相关的工作和项目。例如，Vega 和 Vega-Lite 项目利用这些数据集开发了强大的可视化工具，支持用户通过简单的代码生成复杂的可视化图形。此外，Python 的 Altair 库和 Julia 的 VegaDatasets.jl 包也基于这些数据集提供了便捷的数据可视化接口，进一步推动了数据可视化技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集