VisEval
收藏arXiv2024-07-01 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.00981v1
下载链接
链接失效反馈官方服务:
资源简介:
VisEval是一个用于自然语言到可视化(NL2VIS)任务的高质量大型数据集,由微软研究院主导创建。该数据集包含2,524个查询,涉及146个数据库,旨在评估大型语言模型在可视化生成方面的能力。数据集通过结合先进的LLMs智能和可视化专家经验进行筛选和标注,确保了查询的高质量和准确性。VisEval数据集主要应用于评估和提升LLMs在数据可视化领域的性能,特别是在自然语言处理和可视化设计方面。
VisEval is a high-quality large-scale dataset for the natural language to visualization (NL2VIS) task, developed and led by Microsoft Research. It contains 2,524 queries covering 146 databases, aiming to evaluate the capabilities of large language models (LLMs) in visualization generation. The dataset is curated and annotated by integrating the advanced capabilities of LLMs and the professional expertise of visualization specialists, ensuring the high quality and accuracy of the queries. The VisEval dataset is primarily utilized to evaluate and enhance the performance of LLMs in the domain of data visualization, particularly in natural language processing and visualization design.
提供机构:
微软研究院
创建时间:
2024-07-01
搜集汇总
数据集介绍

构建方式
VisEval数据集的构建过程采用了多阶段筛选机制,结合了前沿大型语言模型(LLM)的智能和可视化专家的经验。首先,通过规则过滤、LLM筛选和人工筛选三个步骤,从nvBench数据集中筛选出高质量、非重复的自然语言查询。其次,对每个查询的地面真实标签进行了准确的标注,并添加了元信息,以定义多个可接受的图表的可行区域。最后,为了确保数据集的多样性,排除了过于简单的查询,并对数据集进行了重新平衡。
特点
VisEval数据集具有以下特点:1)大规模覆盖:包含2,524个代表性查询,涵盖146个数据库,确保了广泛的数据领域覆盖;2)高质量查询:查询明确指定了选择的列、聚合和图表类型,避免了歧义和不合理的可视化;3)准确的地面真实:地面真实数据经过准确标注,能够精确描述可接受的图表;4)有价值的查询选择:排除了过于简单的查询,确保了查询的多样性和挑战性。
使用方法
VisEval数据集可用于评估NL2VIS系统的性能。首先,将NL2VIS系统的输出代码与数据表一起输入到VisEval评估框架中。然后,评估框架将自动检查代码的执行情况,验证其有效性。接下来,通过解析SVG格式的可视化,评估其合法性,包括图表类型、数据和排序是否符合查询要求。最后,评估框架将利用GPT-4V的多模态模型进行可读性评估,综合考虑布局、刻度、标题、标签、颜色等因素。评估结果将提供关于NL2VIS系统性能的全面评估,包括有效代码率、合法图表率、可读性评分和质量评分。
背景与挑战
背景概述
在数据可视化领域,将自然语言(NL)查询转换为可视化(VIS)一直是研究的热点。VisEval数据集应运而生,旨在为自然语言到可视化(NL2VIS)任务提供一个全面且可靠的基准。该数据集由微软研究院的研究人员Nan Chen、Yuge Zhang、Jiahang Xu、Ren Kan和Yuqing Yang于2024年创建,包含2,524个代表性查询,涵盖146个数据库,并配有精确标注的基线可视化。VisEval的提出填补了NL2VIS领域中缺乏综合性基准的空白,对于推动该领域的发展具有重要意义。
当前挑战
VisEval数据集旨在解决自然语言到可视化任务中的挑战。首先,它解决了在将自然语言查询转换为可视化过程中,如何准确理解和解释自然语言查询的挑战。其次,它解决了如何有效地转换数据并选择有意义的可视化映射的挑战。此外,VisEval还面临构建过程中的挑战,包括如何构建一个高质量、大规模的基准数据集,以及如何设计一个全面、自动化的评估方法。
常用场景
经典使用场景
在自然语言到可视化(NL2VIS)任务中,VisEval数据集被广泛应用于评估和比较不同预训练大型语言模型(LLMs)在生成数据可视化方面的能力。通过将自然语言查询与数据表配对,并使用自动化的评估方法,VisEval能够系统地检测LLMs生成的可视化中的潜在问题,并提供可靠的评估结果。这一过程有助于理解LLMs在可视化生成方面的优势和局限性,并为未来的研究提供有价值的见解。
解决学术问题
VisEval数据集解决了当前NL2VIS研究中缺乏一个全面和可靠基准的问题。通过提供高质量的、大规模的、准确标注的查询数据集,VisEval使得研究人员能够更准确地评估LLMs在可视化生成方面的表现。此外,VisEval的自动化评估框架涵盖了有效性、合法性和可读性等多个维度,从而确保了评估结果的全面性和可靠性。
衍生相关工作
VisEval数据集的提出和评估框架的设计,为NL2VIS领域的研究人员提供了新的研究方向和工具。VisEval的评估结果揭示了LLMs在可视化生成方面的常见挑战和局限性,这为未来的研究提供了有价值的启示。此外,VisEval的数据集和评估框架还可以被用于开发新的LLMs模型和可视化生成方法,以进一步提高LLMs在可视化生成方面的能力。
以上内容由遇见数据集搜集并总结生成



