five

Tree of life dataset|系统发育学数据集|生物多样性数据集

收藏
github2024-03-30 更新2024-05-31 收录
系统发育学
生物多样性
下载链接:
https://github.com/bricaud/tree-of-life-dataset
下载链接
链接失效反馈
资源简介:
该数据集提供了一个生命之树或系统发育树,每个节点代表地球上的一个物种(活的或已灭绝的),节点间的连接表示物种间的祖先/后代关系。数据由生物学家制作,并随着研究不断更新。数据集包含35960个物种和35959个连接。

This dataset provides a Tree of Life or phylogenetic tree, where each node represents a species on Earth (living or extinct), and the connections between nodes indicate ancestral/descendant relationships among species. The data is curated by biologists and is continuously updated with ongoing research. The dataset encompasses 35,960 species and 35,959 connections.
创建时间:
2017-10-06
原始信息汇总

Tree of life dataset 概述

数据集内容

  • 数据类型:树状结构,即生命之树或系统发育树。
  • 节点描述:每个节点代表地球上的一个物种(现存或已灭绝)。
  • 链接描述:节点间的链接表示物种间的祖先/后代关系。

数据格式

  • 原始数据:XML文件,位于data文件夹中的tolskeletaldumpUTF8.xml
  • 转换格式:JSON和GraphML文件,同样位于data文件夹中。

数据处理

  • 处理工具:Python脚本,提供为Jupyter笔记本scripts/tree_of_life_xml_tol.ipynb
  • 许可证:Apache 2.0。

数据集属性

  • 节点属性
    • NAME:物种名称,未知时为空字符串。
    • CONFIDENCE:置信度,0-自信,1-位置不确定,2-位置未指定。
    • LEAF:是否为叶节点。
    • CHILDCOUNT:子节点数量。
    • PHYLESIS:系统发育状态,0-单系,1-单系不确定,2-非单系。
    • HASPAGE:是否有描述该物种的网页。
    • EXTINCT:物种状态,0-现存,2-已灭绝。
    • ID:物种在树中的标识符。
  • 链接属性:无。

数据集规模

  • 物种数量:35960。
  • 链接数量:35959。

许可证

  • 原始XML文件:Attribution Creative Commons 3.0。
  • 其他格式文件:同上,版权所有者为Benjamin Ricaud。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Tree of life dataset的构建基于生物学领域的系统发育树理论,数据源自Tree Of Life Project网站提供的XML文件。该文件经过UTF8编码转换,并通过Python脚本提取并保存为JSON和graphml格式,以便于在图形数据库或相关工具中加载。构建过程中,生物学家不断更新和完善物种节点及其祖先/后代关系,确保数据的科学性和时效性。
特点
该数据集以树状结构呈现地球上的物种关系,包含35960个物种节点和35959条链接。每个节点代表一个物种,具备多种属性,如物种名称、置信度、是否为叶节点、子节点数量等。链接则代表物种间的祖先/后代关系。数据集不仅涵盖现存物种,还包括已灭绝物种,为研究生物多样性和进化历程提供了丰富的信息。
使用方法
用户可通过加载JSON或graphml文件,将数据集导入图形数据库或相关分析工具中进行研究。Python脚本以Jupyter notebook形式提供,便于用户自定义数据处理流程。数据集适用于系统发育分析、物种分类研究以及生物多样性评估等领域,为科研人员提供了便捷且权威的数据支持。
背景与挑战
背景概述
Tree of Life数据集是生物学领域中一个重要的系统发育树数据集,由Tree of Life Project的生物学研究者们创建并持续更新。该数据集以XML文件形式发布,并通过Creative Commons 3.0许可证进行共享,版权归Tree of Life Project所有。数据集中的每个节点代表地球上的一个物种(现存或已灭绝),节点之间的连接则反映了物种间的祖先与后代关系。该数据集的核心研究问题在于揭示物种间的进化关系,为生物多样性研究、进化生物学以及生态学等领域提供了重要的数据支持。通过将原始XML文件转换为JSON和graphml格式,研究者可以更便捷地将其应用于图数据库或其他图分析工具中。
当前挑战
Tree of Life数据集在解决物种进化关系问题时面临多重挑战。首先,系统发育树的构建依赖于物种分类的准确性,而物种分类本身存在不确定性,尤其是在化石记录不完整或分子数据有限的情况下。其次,数据集中的节点属性(如物种名称、置信度、单系性等)的完整性和准确性直接影响研究结果的可靠性,但部分物种的属性信息可能缺失或不明确。此外,数据集的构建过程也面临技术挑战,例如原始XML文件的解析与转换需要复杂的脚本处理,以确保数据格式的兼容性和完整性。这些挑战不仅限制了数据集的广泛应用,也对研究者的数据处理能力提出了更高要求。
常用场景
经典使用场景
Tree of life数据集在生物信息学和系统发育学研究中具有重要地位,常用于构建和分析物种之间的进化关系。研究者通过该数据集可以追溯物种的共同祖先,理解生物多样性的起源和演化过程。该数据集支持多种文件格式,如JSON和graphml,便于在图形数据库或相关工具中进行加载和分析。
解决学术问题
Tree of life数据集为系统发育树的构建提供了可靠的数据基础,解决了物种分类和进化关系研究中的关键问题。通过该数据集,研究者能够更准确地确定物种的系统发育位置,验证或修正现有的进化理论。此外,数据集中的物种属性信息(如置信度、单系性等)为进化生物学中的不确定性分析提供了重要依据。
衍生相关工作
基于Tree of life数据集,研究者开发了多种系统发育分析工具和算法,如进化树的可视化软件和物种分类的自动化系统。此外,该数据集还促进了跨学科研究,例如与生态学、基因组学和生物地理学的结合,推动了进化生物学领域的创新和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录