nvBench
收藏arXiv2021-12-24 更新2024-06-21 收录
下载链接:
https://sites.google.com/view/nvbench/
下载链接
链接失效反馈官方服务:
资源简介:
nvBench是由清华大学开发的首个大规模NL2VIS基准数据集,包含25,750对自然语言与可视化查询对,覆盖105个领域。数据集通过合成NL2SQL基准数据集创建,确保了数据的高质量和多样性。创建过程中,通过专家和众包工作者的验证,确保了数据集的有效性。nvBench主要用于支持跨领域的自然语言到可视化任务,旨在通过深度学习模型提高自然语言查询到可视化转换的准确性和效率。
nvBench is the first large-scale NL2VIS benchmark dataset developed by Tsinghua University, which includes 25,750 pairs of natural language and visualization queries across 105 domains. It is constructed based on synthetic NL2SQL benchmark datasets to ensure high data quality and diversity. During the development process, it was validated by experts and crowd workers to guarantee the validity of the dataset. nvBench is primarily used to support cross-domain natural language to visualization tasks, with the goal of improving the accuracy and efficiency of natural language query-to-visualization translation through deep learning models.
提供机构:
清华大学
创建时间:
2021-12-24
搜集汇总
数据集介绍

构建方式
nvBench数据集的构建方法是通过将现有的NL2SQL基准数据集作为基础,进行语义连接和树编辑操作,从而生成大量的(NL,VIS)对。具体来说,该方法首先将SQL查询视为树结构,进行树编辑操作,包括删除一些树分支和插入可视化类型,从而生成多个可能的树,每个树对应一种可视化。然后,使用预训练的机器学习模型DeepEye对合成的可视化进行筛选,去除不符合要求的“坏”的可视化。最后,根据树编辑的结果,修改输入的NL查询,生成对应的(NL,VIS)对。
特点
nvBench数据集的特点包括:1. 大规模:包含25,750个(NL,VIS)对,覆盖750张表格和105个领域。2. 高质量:通过专家和众包工作者的验证,86.9%/88.7%的(NL,VIS)对匹配良好。3. 多样化:涵盖了7种类型的图表,以及各种数据类型和领域。
使用方法
nvBench数据集的使用方法包括:1. 开发者可以使用这些数据对来训练深度学习模型,以支持跨领域的NL2VIS任务。2. 开发者可以分析NL查询的特征,以帮助设计NL2VIS界面。3. 开发者可以使用ncNet模型进行NL2VIS翻译,并通过Jupyter Lab环境展示可视化结果。
背景与挑战
背景概述
自然语言到可视化(NL2VIS)任务,即通过自然语言查询将自然语言转换为相应的可视化,近年来在商业可视化供应商和学术研究者中引起了越来越多的关注。nvBench数据集是首个大规模的NL2VIS基准,包含25,750个(NL,VIS)对,涵盖了105个领域的750张表。nvBench数据集的创建旨在填补NL2VIS领域中大规模、高质量基准的空白,支持跨域NL2VIS任务,为NL2VIS领域的研究和应用提供了重要的数据资源。
当前挑战
nvBench数据集面临的挑战包括:1)领域问题:如何将自然语言查询转换为可视化查询,并生成可视化规范,以支持跨域NL2VIS任务;2)构建过程中的挑战:如何从(NL,SQL)基准中合成高质量、多样化的(NL,VIS)对,以及如何验证合成数据集的质量。
常用场景
经典使用场景
nvBench数据集作为自然语言到可视化(NL2VIS)任务的首个大规模基准,被广泛应用于训练和评估深度学习模型。该数据集包含25,750个自然语言查询和对应可视化的配对,跨越105个领域,为NL2VIS任务提供了丰富的训练数据。经典的使用场景包括训练端到端的神经网络模型,如ncNet,该模型基于Transformer架构,能够将自然语言查询直接转换为可视化表示。此外,nvBench还被用于分析自然语言查询的特征,以帮助设计NL2VIS接口,如自动补全和短语建议功能。
实际应用
在实际应用中,nvBench数据集被用于开发支持自然语言查询的数据可视化工具,如Tableau的Ask Data和Microsoft Power BI Q&A。这些工具允许用户使用自然语言来描述他们想要可视化的数据,从而降低了数据可视化的门槛,使得非专业人士也能够轻松地探索和分析数据。此外,nvBench还被用于构建COVID-19疫情数据可视化仪表板,帮助用户通过自然语言查询来理解疫情的发展趋势。
衍生相关工作
nvBench数据集的发布催生了一系列基于深度学习的NL2VIS模型,如ncNet和ADVISor。这些模型利用nvBench提供的数据进行训练,实现了将自然语言查询转换为可视化表示的端到端过程。此外,nvBench还为研究NL2VIS任务的对话式查询和未指定查询提供了基础,推动了该领域的研究进展。未来,随着NL2VIS基准的进一步发展,将会有更多支持不同类型可视化、不同领域和场景的NL2VIS模型被开发出来。
以上内容由遇见数据集搜集并总结生成



