GQVis

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/HIDIVE/GQVis

下载链接

链接失效反馈

官方服务：

资源简介：

GQVis是一个大规模的数据集，旨在支持基因组数据可视化的自然语言查询研究。它包含102万条与Gosling规范配对的基因组数据的自然语言查询。该数据集还包括用于研究更复杂工作流程的多步骤交互链接、链和数据集。

创建时间：

2025-08-20

原始信息汇总

GQVis 数据集概述

数据集简介

GQVis 是一个大规模数据集，旨在支持基因组学数据可视化自然语言查询的研究。该数据集包含 102 万个基因组学数据的自然语言查询与 Gosling 可视化规范的配对。

数据规模

总数据量：102 万个查询-可视化配对
数据格式：DataFrame（测试集）

数据列说明

query：自然语言查询，由 query_base 改写而来
expertise：改写查询的专业程度评分（1-5）
formality：改写查询的正式程度评分（1-5）
query_template：带有样本、实体和位置占位符的抽象问题
constraints：限制 query_template 具体化为 query_base 的约束条件
spec_template：Gosling 可视化规范模板
query_type：查询类型（问题|语句）
taxonomy_type：根据 Nusrat 等人的可视化分类类型
creation_method：查询/规范对的创建方法（模板）
chart_type：图表类型（散点图、条形图、堆叠条形图、环形图、表格、折线图、面积图、分组折线图、分组面积图、分组散点图、热力图、直方图、点图、分组点图）
chart_complexity：图表复杂度（简单|中等|复杂|特别复杂）
spec_key_count：spec 字段中的键数量，用于计算 chart_complexity
justification：选择该可视化的解释说明
caption：描述可视化的学术图注
query_base：从 query_template 解析出样本、实体和位置的查询
spec：Gosling.js 可视化规范
solution：包含将 query_template 解析为 query_base 的样本、实体和位置的嵌套对象
dataset_schema：被查询数据集的模式引用
alt_description：由 Alt-Gosling 生成的可访问性替代文本

使用方式

python import pandas as pd from datasets import load_dataset dataset = load_dataset("HIDIVE/GQVis") df = dataset[train].to_pandas()

版本历史

初始版本：添加包含 102 万个查询-可视化配对的 GQVis 数据集

搜集汇总

数据集介绍

构建方式

在基因组数据可视化领域，GQVis数据集通过系统化模板工程构建而成。其核心采用查询模板与可视化规范模板的配对机制，基于约束条件将抽象模板具体化为自然语言查询与Gosling可视化规格。数据生成过程融合了多维度质量控制，包括专家知识标注、形式化等级评估及复杂度分层，确保每对数据兼具语言学合理性与可视化技术准确性。

特点

该数据集显著特点在于其百万级规模的查询-可视化配对数据，覆盖散点图、热力图、环形图等17种图表类型，并附带多层级元数据体系。每个样本均包含专业化标注维度，如专业知识等级、形式化程度、图表复杂度指标及可访问性描述，同时提供可视化选择理由的学术化阐释。数据集还集成了多步骤交互链与工作流数据，为复杂可视化任务研究提供结构化支持。

使用方法

研究人员可通过HuggingFace数据集库直接加载GQVis主数据集，使用标准pandas接口进行数据框操作。典型工作流包含导入datasets模块、调用load_dataset函数指定数据集路径，并通过to_pandas方法转换为数据框结构。数据集提供完整的字段索引体系，支持基于查询类型、图表分类或复杂度级别的数据筛选，同时可与配套的Gosling可视化语言库集成实现动态可视化生成。

背景与挑战

背景概述

基因组数据可视化作为生物信息学与可视化交叉领域的重要研究方向，近年来受到学术界广泛关注。GQVis数据集由哈佛医学院生物医学信息学系（HMS DBMI）研究团队于2023年创建，旨在解决自然语言查询与基因组可视化之间的语义映射难题。该数据集包含102万对自然语言查询与Gosling可视化规范的配对数据，通过系统化的模板生成与约束重构机制，为基因组数据可视化领域的自然语言界面研究提供了大规模基准数据支撑，显著推动了交互式生物医学数据分析范式的发展。

当前挑战

基因组数据可视化领域面临的核心挑战在于如何将非结构化自然语言查询准确映射为结构化可视化规范，这需要解决生物医学术语的多义性、查询意图的模糊性以及可视化语法复杂性等多重问题。在数据集构建过程中，研究团队需克服专业领域知识标注的一致性难题，确保不同专业水平的查询表述都能对应精确的可视化输出，同时还要处理大规模基因组数据模式异构性带来的技术挑战，以及保持Gosling语法规范与自然语言语义空间的对齐精度。

常用场景

经典使用场景

在基因组数据可视化研究领域，GQVis数据集通过百万级自然语言查询与Gosling可视化规范的配对，为构建智能可视化推荐系统提供了核心训练资源。研究者利用其丰富的查询-图表对应关系，开发能够理解生物医学专业术语并自动生成可视化方案的自然语言处理模型，显著提升了基因组数据分析的交互效率。

衍生相关工作

基于GQVis数据集衍生了Gosling可视化语言的增强解析器与Alt-Gosling无障碍描述系统，推动了可访问性可视化研究的发展。相关工作还包括多步骤交互链路的分析框架，为复杂生物医学工作流的自动化构建提供了理论基础与实践验证。

数据集最近研究