VizNet

Name: VizNet
Creator: 麻省理工学院媒体实验室
Published: 2019-05-12 08:47:28
License: 暂无描述

arXiv2019-05-12 更新2024-06-21 收录

下载链接：

https://viznet.media.mit.edu

下载链接

链接失效反馈

官方服务：

资源简介：

VizNet是由麻省理工学院媒体实验室创建的一个大规模数据集，包含超过3100万个数据集，主要从开放数据存储库和在线可视化画廊中编译而成。这些数据集平均包含17条记录，跨越3个维度，其中51%的维度记录分类数据，44%记录定量数据，仅有5%记录时间数据。VizNet的创建旨在为比较可视化设计技术提供必要的共同基准，并开发用于自动化视觉分析的基准模型和算法。该数据集适用于大规模在线众包实验，特别是在评估用户任务和数据分布对可视化编码有效性的影响方面。

VizNet is a large-scale dataset created by the MIT Media Lab, containing over 31 million datasets compiled primarily from open data repositories and online visualization galleries. On average, each of these datasets contains 17 records across 3 dimensions, among which 51% of the dimensions hold categorical data, 44% hold quantitative data, and only 5% hold temporal data. VizNet was developed to provide the necessary common benchmarks for comparing visualization design techniques, as well as to develop benchmark models and algorithms for automated visual analysis. This dataset is suitable for large-scale online crowdsourcing experiments, particularly in evaluating the impact of user tasks and data distributions on the effectiveness of visualization encoding.

提供机构：

麻省理工学院媒体实验室

创建时间：

2019-05-12

搜集汇总

数据集介绍

构建方式

在可视化研究领域，构建具有真实世界特征的大规模数据集对于推动自动化可视化工具的发展至关重要。VizNet的构建过程系统性地整合了来自多个来源的数据，包括从Common Crawl中提取的WebTables 2015语料库、Plotly和ManyEyes等在线可视化平台的用户上传数据，以及Open Data Portal Watch收录的政府开放数据门户。通过随机采样策略，研究团队从超过3100万个数据集中平衡选取了100万个样本，形成了VizNet 1M语料库，并对每个数据集的列类型进行启发式分类，定量列则通过Kolmogorov-Smirnov检验拟合六种统计分布，从而构建了一个涵盖真实数据特征的多样化数据仓库。

使用方法

VizNet为数据科学家和可视化研究者提供了一个多功能实验平台。研究者可利用该语料库进行大规模在线众包实验，例如通过采样符合特定约束条件的数据集来复现图形感知研究，并扩展新的分析任务如异常值检测。数据集支持通过Vega-Lite语法枚举可视化编码方案，使研究者能够系统评估不同数据分布、视觉编码和任务类型组合的有效性。此外，VizNet支持机器学习模型的训练与测试，例如使用梯度提升回归树预测视觉设计的感知效果，为自动化可视化推荐系统提供基准数据，从而推动可视化设计知识的积累与算法比较。

背景与挑战

背景概述

在数据可视化研究领域，长期以来缺乏大规模、多样化的真实数据集作为自动化可视化工具训练与评估的基准。2019年，由麻省理工学院媒体实验室、计算机科学与人工智能实验室以及清华大学的研究人员联合创建的VizNet数据集，旨在应对这一挑战。该数据集汇集了来自网络表格、开放数据门户及在线可视化平台的超过3100万个数据集，平均每个数据集包含17条记录和3个维度，其中分类数据占51%，定量数据占44%，时间数据仅占5%。VizNet的构建为图形感知研究提供了生态有效的真实数据基础，显著推动了可视化设计技术的比较与自动化视觉分析模型的发展，成为该领域重要的公共资源。

当前挑战

VizNet致力于解决的核心领域挑战在于自动化可视化设计中图形感知效果的量化评估。传统研究依赖合成或特定数据集，难以反映真实数据的复杂分布，导致结果泛化能力受限。在构建过程中，研究团队面临多重挑战：首先，从异构来源（如WebTables、Plotly、ManyEyes及开放数据门户）大规模采集与整合数据时，需处理数据格式不一致、缺失值及噪声问题；其次，为保持数据集的代表性与平衡性，需设计复杂的采样与过滤策略，确保数据维度、类型及统计特性符合实验要求；此外，在利用众包平台进行可视化效果评估时，需克服任务设计的主观性、标注质量波动以及计算成本高昂等障碍，以实现可扩展且可靠的人机交互实验。

常用场景

经典使用场景

在可视化研究领域，VizNet数据集作为大规模、多样化的真实世界数据仓库，其经典使用场景在于为图形感知实验提供生态有效的基准。通过整合来自网络表格、开放数据门户和在线可视化平台的超过3100万个数据集，该数据集使研究人员能够基于真实数据分布评估视觉编码的有效性，从而克服传统研究中依赖合成或特定数据集的局限性。例如，在复现Kim和 Heer（2018）关于任务与数据分布对视觉编码影响的研究时，VizNet通过采样匹配约束的真实数据集，为实验提供了丰富的背景，确保了研究结果的普遍性和可比较性。

解决学术问题

VizNet解决了可视化研究中长期存在的生态效度不足和基准缺失问题。传统研究常使用临时或合成数据集，这些数据缺乏真实世界特征，导致结果难以泛化和比较。该数据集通过提供大规模、多源的真实表格数据，并详细描述其维度类型、统计属性（如分类数据占51%，定量数据占44%），为自动化可视化工具的训练与评估建立了共同基线。这不仅支持了图形感知理论的深化，还推动了基于机器学习的可视化设计模型（如VizML、Data2Vis）的发展，使研究能够更系统地探索数据、可视化与任务之间的复杂关系。

实际应用

在实际应用中，VizNet作为可视化学习和实验平台，被广泛用于众包实验和自动化系统开发。例如，研究人员利用其接口大规模招募参与者，评估不同视觉编码在真实数据上的表现，从而优化图表设计工具。该数据集还支持预测模型训练，如通过梯度提升回归树学习感知有效性指标，以预测未见数据-可视化-任务三元组的性能。这些应用不仅降低了实验成本，还促进了可视化推荐系统的进步，帮助数据科学家快速生成适合特定分析任务的有效图表。

数据集最近研究