five

Tree of life dataset

收藏
github2024-03-30 更新2024-05-31 收录
下载链接:
https://github.com/bricaud/tree-of-life-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了一个生命之树或系统发育树,每个节点代表地球上的一个物种(活的或已灭绝的),节点间的连接表示物种间的祖先/后代关系。数据由生物学家制作,并随着研究不断更新。数据集包含35960个物种和35959个连接。

This dataset provides a Tree of Life or phylogenetic tree, where each node represents a species on Earth (living or extinct), and the connections between nodes indicate ancestral/descendant relationships among species. The data is curated by biologists and is continuously updated with ongoing research. The dataset encompasses 35,960 species and 35,959 connections.
创建时间:
2017-10-06
原始信息汇总

Tree of life dataset 概述

数据集内容

  • 数据类型:树状结构,即生命之树或系统发育树。
  • 节点描述:每个节点代表地球上的一个物种(现存或已灭绝)。
  • 链接描述:节点间的链接表示物种间的祖先/后代关系。

数据格式

  • 原始数据:XML文件,位于data文件夹中的tolskeletaldumpUTF8.xml
  • 转换格式:JSON和GraphML文件,同样位于data文件夹中。

数据处理

  • 处理工具:Python脚本,提供为Jupyter笔记本scripts/tree_of_life_xml_tol.ipynb
  • 许可证:Apache 2.0。

数据集属性

  • 节点属性
    • NAME:物种名称,未知时为空字符串。
    • CONFIDENCE:置信度,0-自信,1-位置不确定,2-位置未指定。
    • LEAF:是否为叶节点。
    • CHILDCOUNT:子节点数量。
    • PHYLESIS:系统发育状态,0-单系,1-单系不确定,2-非单系。
    • HASPAGE:是否有描述该物种的网页。
    • EXTINCT:物种状态,0-现存,2-已灭绝。
    • ID:物种在树中的标识符。
  • 链接属性:无。

数据集规模

  • 物种数量:35960。
  • 链接数量:35959。

许可证

  • 原始XML文件:Attribution Creative Commons 3.0。
  • 其他格式文件:同上,版权所有者为Benjamin Ricaud。
搜集汇总
数据集介绍
main_image_url
构建方式
Tree of life dataset的构建基于生物学领域的系统发育树理论,数据源自Tree Of Life Project网站提供的XML文件。该文件经过UTF8编码转换,并通过Python脚本提取并保存为JSON和graphml格式,以便于在图形数据库或相关工具中加载。构建过程中,生物学家不断更新和完善物种节点及其祖先/后代关系,确保数据的科学性和时效性。
特点
该数据集以树状结构呈现地球上的物种关系,包含35960个物种节点和35959条链接。每个节点代表一个物种,具备多种属性,如物种名称、置信度、是否为叶节点、子节点数量等。链接则代表物种间的祖先/后代关系。数据集不仅涵盖现存物种,还包括已灭绝物种,为研究生物多样性和进化历程提供了丰富的信息。
使用方法
用户可通过加载JSON或graphml文件,将数据集导入图形数据库或相关分析工具中进行研究。Python脚本以Jupyter notebook形式提供,便于用户自定义数据处理流程。数据集适用于系统发育分析、物种分类研究以及生物多样性评估等领域,为科研人员提供了便捷且权威的数据支持。
背景与挑战
背景概述
Tree of Life数据集是生物学领域中一个重要的系统发育树数据集,由Tree of Life Project的生物学研究者们创建并持续更新。该数据集以XML文件形式发布,并通过Creative Commons 3.0许可证进行共享,版权归Tree of Life Project所有。数据集中的每个节点代表地球上的一个物种(现存或已灭绝),节点之间的连接则反映了物种间的祖先与后代关系。该数据集的核心研究问题在于揭示物种间的进化关系,为生物多样性研究、进化生物学以及生态学等领域提供了重要的数据支持。通过将原始XML文件转换为JSON和graphml格式,研究者可以更便捷地将其应用于图数据库或其他图分析工具中。
当前挑战
Tree of Life数据集在解决物种进化关系问题时面临多重挑战。首先,系统发育树的构建依赖于物种分类的准确性,而物种分类本身存在不确定性,尤其是在化石记录不完整或分子数据有限的情况下。其次,数据集中的节点属性(如物种名称、置信度、单系性等)的完整性和准确性直接影响研究结果的可靠性,但部分物种的属性信息可能缺失或不明确。此外,数据集的构建过程也面临技术挑战,例如原始XML文件的解析与转换需要复杂的脚本处理,以确保数据格式的兼容性和完整性。这些挑战不仅限制了数据集的广泛应用,也对研究者的数据处理能力提出了更高要求。
常用场景
经典使用场景
Tree of life数据集在生物信息学和系统发育学研究中具有重要地位,常用于构建和分析物种之间的进化关系。研究者通过该数据集可以追溯物种的共同祖先,理解生物多样性的起源和演化过程。该数据集支持多种文件格式,如JSON和graphml,便于在图形数据库或相关工具中进行加载和分析。
解决学术问题
Tree of life数据集为系统发育树的构建提供了可靠的数据基础,解决了物种分类和进化关系研究中的关键问题。通过该数据集,研究者能够更准确地确定物种的系统发育位置,验证或修正现有的进化理论。此外,数据集中的物种属性信息(如置信度、单系性等)为进化生物学中的不确定性分析提供了重要依据。
衍生相关工作
基于Tree of life数据集,研究者开发了多种系统发育分析工具和算法,如进化树的可视化软件和物种分类的自动化系统。此外,该数据集还促进了跨学科研究,例如与生态学、基因组学和生物地理学的结合,推动了进化生物学领域的创新和发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作