EvANI benchmarking dataset

github2024-08-15 更新2024-08-18 收录

下载链接：

https://github.com/sinamajidian/EvANI

下载链接

链接失效反馈

官方服务：

资源简介：

EvANI基准测试数据集包括模拟数据和真实数据。模拟数据通过ALF模拟器生成，参数包括变异率、基因复制率和水平基因转移率。真实数据来自NCBI基因组和GTDB树。

The EvANI benchmark dataset consists of simulated and real-world data. The simulated data is generated using the ALF simulator, with parameters including mutation rate, gene duplication rate, and horizontal gene transfer rate. The real-world data is sourced from NCBI genomes and the GTDB tree.

创建时间：

2024-08-13

原始信息汇总

EvANI 数据集概述

数据集内容

模拟数据

生成工具：使用 ALF 模拟器生成数据，可通过本地脚本运行或在线生成。
参数设置：
- 突变率 (mutRate)：从 2 到 20，对应 ANI 值 50-100。
- 基因复制率 (geneDuplRate)：从 0.0001 到 0.01。
- 水平基因转移率 (lgtGRate)：从 0.00001 到 0.001。
数据集：多样化的数据集可在 Zenodo 上获取。

真实数据

数据来源：从 NCBI 下载基因组数据。
数据处理：使用 GTDB 树和 ete3 工具下载 NCBI 分类数据。

数据集使用

工具基准测试

工具包括：k-mer 基于的工具（如 dashing, mash, fastANI, orthoANI, ANIm）和 FastOMA 用于推断直系同源基因。
输出解析：使用 Python 脚本解析各工具的输出。
结果比较：通过与系统发育树上的真实距离比较，使用代码进行排名相关性测试并可视化结果。

搜集汇总

数据集介绍

构建方式

在构建EvANI基准测试数据集时，研究者采用了模拟数据与真实数据相结合的方法。模拟数据通过ALF模拟器生成，该模拟器允许研究者调整突变率、基因复制率和水平基因转移率等参数，从而生成具有不同ANI值的多样化数据集。真实数据则从NCBI数据库中下载，并结合GTDB树进行分析。此外，研究者还利用ete3工具下载了NCBI分类学数据，以确保数据集的全面性和准确性。

特点

EvANI基准测试数据集的显著特点在于其多样性和真实性。通过ALF模拟器生成的模拟数据，研究者能够控制多种参数，从而生成覆盖广泛ANI值的数据集，这对于评估ANI工具的性能至关重要。同时，结合从NCBI下载的真实数据，确保了数据集的实际应用价值。此外，数据集的构建过程中还考虑了基因组学的最新进展，如GTDB树的应用，使得数据集在生物信息学领域具有较高的参考价值。

使用方法

使用EvANI基准测试数据集时，研究者可以通过提供的bash脚本运行多种ANI工具，包括基于k-mer的工具如dashing和mash，以及fastANI、orthoANI和ANIm等。每种工具的输出结果通过Python脚本进行解析，并与真实距离进行比较，以评估工具的准确性。研究者还可以利用rank_correlation_test.py代码进行相关性测试，并通过seabron进行结果的可视化。此外，FastOMA工具用于推断同源基因，进一步增强了数据集的应用广度。

背景与挑战

背景概述

EvANI benchmarking dataset是由Sina Majidian等人创建的，旨在评估和比较不同ANI（Average Nucleotide Identity）工具的性能。该数据集的构建时间可追溯至2023年，主要研究人员来自Dessimoz Lab等机构。其核心研究问题在于通过模拟和真实数据，系统地评估各种ANI工具在基因组距离计算中的准确性和效率。这一研究对微生物基因组学领域具有重要意义，因为它为基因组相似性分析提供了标准化的基准数据，有助于推动该领域的技术进步和方法优化。

当前挑战

EvANI benchmarking dataset在构建过程中面临多项挑战。首先，模拟数据的生成依赖于ALF模拟器，参数的多样性和复杂性增加了数据生成的难度。其次，真实数据的获取和处理涉及从NCBI下载大量基因组数据，并需确保数据的完整性和一致性。此外，不同ANI工具的输出格式和结果解析需要高度定制化的脚本，以确保结果的可比性和准确性。最后，如何有效地将工具的输出与真实的系统发育树进行比较，并进行可视化分析，也是该数据集面临的重要挑战。

常用场景

经典使用场景

EvANI benchmarking dataset 主要用于评估和比较不同基因组相似性工具（如 dashing, mash, fastANI, orthoANI 和 ANIm）的性能。通过模拟数据和真实数据，该数据集能够系统地测试这些工具在不同基因突变率、基因重复率和水平基因转移率下的表现。经典使用场景包括使用提供的 bash 脚本运行这些工具，并通过 Python 脚本解析和可视化结果，以评估工具的准确性和效率。

衍生相关工作

基于 EvANI benchmarking dataset，研究人员开发了多种基因组相似性工具的改进版本，并发表了多篇相关论文。例如，FastOMA 工具的优化版本通过该数据集的测试，显著提高了基因组比对的效率和准确性。此外，该数据集还激发了关于基因组数据模拟和真实数据结合的研究，推动了基因组学领域的技术进步。

数据集最近研究