five

GQVis

收藏
Hugging Face2025-08-22 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/HIDIVE/GQVis
下载链接
链接失效反馈
官方服务:
资源简介:
GQVis是一个大规模的数据集,旨在支持基因组数据可视化的自然语言查询研究。它包含102万条与Gosling规范配对的基因组数据的自然语言查询。该数据集还包括用于研究更复杂工作流程的多步骤交互链接、链和数据集。
创建时间:
2025-08-20
原始信息汇总

GQVis 数据集概述

数据集简介

GQVis 是一个大规模数据集,旨在支持基因组学数据可视化自然语言查询的研究。该数据集包含 102 万个基因组学数据的自然语言查询与 Gosling 可视化规范的配对。

数据规模

  • 总数据量:102 万个查询-可视化配对
  • 数据格式:DataFrame(测试集)

数据列说明

  • query:自然语言查询,由 query_base 改写而来
  • expertise:改写查询的专业程度评分(1-5)
  • formality:改写查询的正式程度评分(1-5)
  • query_template:带有样本、实体和位置占位符的抽象问题
  • constraints:限制 query_template 具体化为 query_base 的约束条件
  • spec_template:Gosling 可视化规范模板
  • query_type:查询类型(问题|语句)
  • taxonomy_type:根据 Nusrat 等人的可视化分类类型
  • creation_method:查询/规范对的创建方法(模板)
  • chart_type:图表类型(散点图、条形图、堆叠条形图、环形图、表格、折线图、面积图、分组折线图、分组面积图、分组散点图、热力图、直方图、点图、分组点图)
  • chart_complexity:图表复杂度(简单|中等|复杂|特别复杂)
  • spec_key_count:spec 字段中的键数量,用于计算 chart_complexity
  • justification:选择该可视化的解释说明
  • caption:描述可视化的学术图注
  • query_base:从 query_template 解析出样本、实体和位置的查询
  • spec:Gosling.js 可视化规范
  • solution:包含将 query_template 解析为 query_base 的样本、实体和位置的嵌套对象
  • dataset_schema:被查询数据集的模式引用
  • alt_description:由 Alt-Gosling 生成的可访问性替代文本

使用方式

python import pandas as pd from datasets import load_dataset dataset = load_dataset("HIDIVE/GQVis") df = dataset[train].to_pandas()

相关项目

  • 数据创建框架:https://github.com/hms-dbmi/GQVis-Generation
  • 数据审查界面:https://github.com/hms-dbmi/GQVis-review
  • Gosling:https://github.com/gosling-lang
  • Alt-Gosling:https://github.com/sehilyi/albulk-gosling

版本历史

  • 初始版本:添加包含 102 万个查询-可视化配对的 GQVis 数据集
搜集汇总
数据集介绍
main_image_url
构建方式
在基因组数据可视化领域,GQVis数据集通过系统化模板工程构建而成。其核心采用查询模板与可视化规范模板的配对机制,基于约束条件将抽象模板具体化为自然语言查询与Gosling可视化规格。数据生成过程融合了多维度质量控制,包括专家知识标注、形式化等级评估及复杂度分层,确保每对数据兼具语言学合理性与可视化技术准确性。
特点
该数据集显著特点在于其百万级规模的查询-可视化配对数据,覆盖散点图、热力图、环形图等17种图表类型,并附带多层级元数据体系。每个样本均包含专业化标注维度,如专业知识等级、形式化程度、图表复杂度指标及可访问性描述,同时提供可视化选择理由的学术化阐释。数据集还集成了多步骤交互链与工作流数据,为复杂可视化任务研究提供结构化支持。
使用方法
研究人员可通过HuggingFace数据集库直接加载GQVis主数据集,使用标准pandas接口进行数据框操作。典型工作流包含导入datasets模块、调用load_dataset函数指定数据集路径,并通过to_pandas方法转换为数据框结构。数据集提供完整的字段索引体系,支持基于查询类型、图表分类或复杂度级别的数据筛选,同时可与配套的Gosling可视化语言库集成实现动态可视化生成。
背景与挑战
背景概述
基因组数据可视化作为生物信息学与可视化交叉领域的重要研究方向,近年来受到学术界广泛关注。GQVis数据集由哈佛医学院生物医学信息学系(HMS DBMI)研究团队于2023年创建,旨在解决自然语言查询与基因组可视化之间的语义映射难题。该数据集包含102万对自然语言查询与Gosling可视化规范的配对数据,通过系统化的模板生成与约束重构机制,为基因组数据可视化领域的自然语言界面研究提供了大规模基准数据支撑,显著推动了交互式生物医学数据分析范式的发展。
当前挑战
基因组数据可视化领域面临的核心挑战在于如何将非结构化自然语言查询准确映射为结构化可视化规范,这需要解决生物医学术语的多义性、查询意图的模糊性以及可视化语法复杂性等多重问题。在数据集构建过程中,研究团队需克服专业领域知识标注的一致性难题,确保不同专业水平的查询表述都能对应精确的可视化输出,同时还要处理大规模基因组数据模式异构性带来的技术挑战,以及保持Gosling语法规范与自然语言语义空间的对齐精度。
常用场景
经典使用场景
在基因组数据可视化研究领域,GQVis数据集通过百万级自然语言查询与Gosling可视化规范的配对,为构建智能可视化推荐系统提供了核心训练资源。研究者利用其丰富的查询-图表对应关系,开发能够理解生物医学专业术语并自动生成可视化方案的自然语言处理模型,显著提升了基因组数据分析的交互效率。
衍生相关工作
基于GQVis数据集衍生了Gosling可视化语言的增强解析器与Alt-Gosling无障碍描述系统,推动了可访问性可视化研究的发展。相关工作还包括多步骤交互链路的分析框架,为复杂生物医学工作流的自动化构建提供了理论基础与实践验证。
数据集最近研究
最新研究方向
基因组数据可视化领域正经历从传统编程范式向自然语言交互的革命性转变。GQVis数据集作为当前规模最大的自然语言查询与可视化规范配对资源,为可解释AI和智能生物信息学系统提供了关键支撑。其前沿研究聚焦于多模态学习框架的构建,通过结合语言模型与可视化语法生成技术,显著提升了基因组数据探索的交互效率与可访问性。该数据集还推动了可视化推荐系统的革新,特别是在处理复杂生物医学工作流时展现出色性能,相关成果已应用于癌症基因组图谱等重大科研项目,为精准医疗决策提供了可视化分析新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作