five

circos plots dataset

收藏
arXiv2025-03-31 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.24021v1
下载链接
链接失效反馈
官方服务:
资源简介:
circos plots数据集是由四川大学和南洋理工大学合作创建的,包含从已发表科学论文中提取的4396个circos图表,每个图表都有相应的注释和配置信息。该数据集旨在为circos图表的设计推荐过程提供支持,它涵盖了多种基因数据可视化格式,如线形、直方图等,并采用多层嵌套圆环结构展示基因序列数据。数据集的构建过程包括从论文中提取图表,并进行人工标注和配置信息整理。该数据集可应用于生物信息学领域,辅助研究人员在基因组数据分析和可视化方面的工作。

The Circos plots dataset was collaboratively developed by Sichuan University and Nanyang Technological University. It contains 4396 Circos charts extracted from published scientific papers, with each chart accompanied by corresponding annotations and configuration information. This dataset aims to support the design recommendation process for Circos charts, covering various genomic data visualization formats such as line graphs and histograms, and adopting multi-layer nested circular structures to display genomic sequence data. The construction of the dataset includes extracting charts from published papers, followed by manual annotation and organization of configuration information. This dataset can be applied in the field of bioinformatics to assist researchers in their genomic data analysis and visualization work.
提供机构:
四川大学, 中国;南洋理工大学, 新加坡
创建时间:
2025-03-31
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程分为三个主要步骤:论文收集、插图-注释对提取和插图标注。首先,从SemanticScholar和Unpaywall平台收集了3,377篇引用Circos论文的PDF文档,确保数据来源的专业性和可靠性。随后,采用深度学习技术自动提取了29,701组插图-注释对,并通过训练ResNet50模型筛选出4,531组Circos图相关数据,经人工验证后保留4,396组有效数据。最后,基于Circos配置格式和XML语法开发了标注工具,由五位具有可视化经验的标注者完成结构化标注,完整记录了环形图的核心元素和轨道类型。
使用方法
该数据集主要支持基于检索增强生成(RAG)框架的环形图推荐系统。使用流程分为三个阶段:首先通过文本嵌入模型将用户查询转换为向量,在构建的环形图向量数据库中检索相似样本;随后将检索结果与用户需求整合,输入GPT-4模型生成配置推荐;最终通过可视化界面实现设计方案的实时渲染与交互调整。研究人员可通过分析数据集中的4,396组轨道组合模式,提取设计规律用于智能推荐算法训练。实际应用时,用户可自然语言描述需求获取AI生成的设计方案,或通过参考面板浏览相似论文中的环形图配置,其定向无环图可视化可直观展示常见轨道组合路径。
背景与挑战
背景概述
Circos Plots Dataset是2025年由四川大学和新加坡南洋理工大学的研究团队在Eurographics Conference on Visualization (EuroVis)上提出的,旨在解决基因组数据可视化中的复杂性问题。该数据集包含4396个Circos图,这些图从已发表的论文中提取并标注,用于支持AI驱动的交互式创作工具IntelliCircos的开发。Circos图因其能够以紧凑的多维形式展示基因组数据而被广泛应用于生物信息学领域,但其设计和实现过程复杂且耗时。该数据集的创建不仅为生物信息学分析师提供了丰富的设计参考,还通过大型语言模型(LLM)提供了领域特定的设计建议,显著提升了Circos图的创作效率和质量。
当前挑战
Circos Plots Dataset面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,Circos图的设计需要处理多个轨道的属性和位置关系,这对分析师的设计能力提出了较高要求,且现有工具缺乏有效的设计支持。构建过程中的挑战包括从大量论文中自动化提取和标注Circos图的复杂性,以及确保数据集的高质量和一致性。此外,如何利用大型语言模型(LLM)提供精准的设计建议,同时保持推荐的灵活性和适应性,也是该数据集面临的重要技术挑战。
常用场景
经典使用场景
Circos plots dataset在基因组学和生物信息学领域中被广泛用于可视化复杂的基因组数据。通过将基因数据以多层次的同心圆形式展示,研究人员能够在一个紧凑的空间内比较和分析不同基因组特征之间的相似性和差异性。这种可视化方法特别适用于展示基因保守性评分、同源关系以及基因测序采样情况等多维度数据。
解决学术问题
该数据集解决了生物信息学分析师在创建Circos图时面临的设计和实现难题。通过提供4396个带有注释和配置的Circos图样本,数据集帮助研究人员快速获取设计灵感和配置参考,从而减少了手动设计和迭代调整的时间。此外,数据集还支持基于检索增强生成(RAG)的设计推荐方法,进一步提升了设计效率和质量。
实际应用
在实际应用中,Circos plots dataset被用于支持各种基因组数据分析任务,如比较基因组学、相关性分析和基因表达模式研究。例如,研究人员可以利用该数据集快速生成Circos图,展示不同物种基因组之间的保守区域或基因表达差异,从而加速科学发现和临床研究的进程。
数据集最近研究
最新研究方向
近年来,Circos plots数据集在生物信息学和基因组学可视化领域的研究方向主要集中在智能化和自动化工具的开发上。特别是随着人工智能技术的进步,研究者们开始探索如何利用大型语言模型(LLM)和检索增强生成(RAG)技术来简化Circos图的创作流程。例如,IntelliCircos工具的提出,通过构建包含4396个Circos图及其注释和配置的数据集,利用LLM提供领域特定的设计建议和配置参考,显著提高了Circos图的设计效率和用户体验。这一研究方向不仅解决了传统Circos图创作过程中的复杂性和时间消耗问题,还为基因组学数据的可视化分析提供了新的可能性。此外,该数据集的应用还推动了Circos图设计模式的识别和分析,为未来的研究提供了丰富的数据支持和理论基础。
相关研究论文
  • 1
    IntelliCircos: A Data-driven and AI-powered Authoring Tool for Circos Plots四川大学, 中国;南洋理工大学, 新加坡 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作