nvBench 2.0
收藏github2025-03-19 更新2025-03-06 收录
下载链接:
https://github.com/HKUSTDial/nvBench-2.0
下载链接
链接失效反馈官方服务:
资源简介:
nvBench 2.0 是一个用于评估自然语言到可视化(NL2VIS)系统的基准测试,特别是在涉及模糊查询的场景中。该数据集通过系统性地引入受控的模糊性来生成多样化的自然语言查询和对应的可视化,提供了从模糊查询到可视化生成的详细推理路径。
nvBench 2.0 is a benchmark for evaluating natural language to visualization (NL2VIS) systems, particularly in scenarios involving ambiguous queries. This dataset generates diverse natural language queries and corresponding visualizations by systematically introducing controlled ambiguity, and provides detailed reasoning paths from ambiguous queries to visualization generation.
创建时间:
2025-02-28
原始信息汇总
nvBench 2.0 数据集概述
数据集简介
- 数据集名称:nvBench 2.0
- 用途:评估自然语言到可视化(NL2VIS)系统在模糊查询场景下的表现
- 核心挑战:解决自然语言查询中的模糊性问题
数据特点
- 支持一对多映射:从自然语言查询到多个可视化结果
- 显式建模查询模糊性
- 提供解释模糊性解决路径的推理路径
- 使用基于LLM的查询生成方法
模糊性处理流程
- 数据选择推理:识别候选列
- 图表类型推理:评估适合的图表类型
- 通道映射推理:映射数据字段到视觉通道
- 数据转换推理:应用时间分箱和聚合
- 可视化合成推理:生成多个有效输出
模糊性注入过程
- 从种子图表开始
- 转换为带有显式节点的可视化树
- 注入模糊性节点
- 解析为多个有效的可视化规范
- 将树扁平化为具体可视化查询
数据集统计
- 查询风格分布:包含命令、问题和标题等多种风格
- 平均查询长度:约14个单词
- 模糊性类型统计:
- 通道编码(CE)模糊性:88.06%
- 数据转换(DT)模糊性:46.00%
实验评估
- 最佳模型:Step-NL2VIS
- 性能指标:
- F1@3:81.50%
- F1@5:80.88%
- 模糊性级别3的召回率:83.3%
数据使用
- 数据目录:
./data/
引用信息
bibtex @misc{luo2025nvbench20benchmarknatural, title={nvBench 2.0: A Benchmark for Natural Language to Visualization under Ambiguity}, author={Tianqi Luo and Chuhan Huang and Leixian Shen and Boyan Li and Shuyu Shen and Wei Zeng and Nan Tang and Yuyu Luo}, year={2025}, eprint={2503.12880}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.12880}, }
搜集汇总
数据集介绍

构建方式
nvBench 2.0数据集的构建,采用了一种系统化的方法来引入受控的模糊性,该方法结合了种子可视化、模糊性节点注入以及推理路径的生成。首先,通过种子可视化创建明确的可视化树,并在其中注入模糊性节点,随后使用ASP求解器将这些树解析为多个有效的可视化规范,最后生成与这些规范相对应的模糊自然语言查询,并产生分步推理路径以记录模糊性的解决过程。
特点
该数据集的特点在于支持从自然语言查询到可视化的一对多映射,明确地建模查询模糊性,并提供推理路径来解释模糊性的解决。此外,数据集利用基于LLM的查询生成技术,确保了查询的自然性和多样性。在统计数据方面,数据集包含了多样化的查询风格和各种图表类型,以及多种模糊性模式,充分体现了现实世界可视化请求的复杂性。
使用方法
使用nvBench 2.0数据集时,用户可以参考数据集中的自然语言查询样例和相应的可视化结果。数据集的结构使得研究者能够训练和评估NL2VIS系统在模糊性场景下的表现。此外,数据集的构建方式也便于研究者分析不同类型的模糊性对NL2VIS任务的影响,以及不同模型处理模糊性的效果。
背景与挑战
背景概述
nvBench 2.0数据集是在自然语言处理与数据可视化交叉领域的一项重要成果,由Luo Tianqi等研究人员于2024年开发。该数据集旨在评估自然语言到可视化(NL2VIS)系统在处理模糊查询场景下的性能。它通过引入模糊性,模拟了现实世界中用户在表达数据可视化需求时常见的模糊语言,为NL2VIS领域提供了一个新的研究方向和评测标准,对提升系统的智能理解和响应能力具有重要影响。
当前挑战
该数据集在构建过程中遇到的挑战主要包括如何系统地在数据集中注入模糊性,以及如何生成与模糊查询相对应的多个有效可视化结果。在研究领域问题上,nvBench 2.0面临着如何使NL2VIS系统准确理解和处理用户模糊查询的挑战,这要求系统能够在数据选择、图表类型、数据映射、数据转换和可视化合成等多个环节进行有效推理。
常用场景
经典使用场景
nvBench 2.0数据集作为自然语言到可视化(NL2VIS)系统的评估基准,其经典使用场景在于处理包含模糊性的自然语言查询。该数据集通过构建具有模糊性的查询示例,如对电影收入趋势的描述,训练和评估系统在解析这类查询时的表现,从而提高NL2VIS系统在实际应用中处理用户模糊需求的能力。
解决学术问题
该数据集解决了NL2VIS系统在处理自然语言查询时遇到的模糊性问题,为学术研究提供了控制模糊性的实验环境。通过引入模糊性注入机制,nvBench 2.0能够帮助研究者分析和理解系统在面临不同类型和层次的模糊性时的工作机制,从而推动NL2VIS领域的技术进步。
衍生相关工作
nvBench 2.0数据集不仅为NL2VIS领域的研究提供了重要资源,还催生了一系列相关的工作,如Step-NL2VIS模型,该模型通过分解推理步骤优化了处理模糊查询的性能。这些衍生工作进一步扩展了NL2VIS技术的应用范围,并推动了相关算法和理论的发展。
以上内容由遇见数据集搜集并总结生成



