Species names dataset

github2024-02-25 更新2024-05-31 收录

下载链接：

https://github.com/species-names/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于科学和通用物种名称的JSON格式数据集。数据主要从https://species.wikimedia.org采集，物种名称以JSON格式存储，每个属一个文件。

A JSON-formatted dataset designed for scientific and common species names. The data is primarily collected from https://species.wikimedia.org, with species names stored in JSON format, each genus in a separate file.

创建时间：

2016-12-13

原始信息汇总

Species names dataset

数据集概述

格式: JSON
内容: 科学物种名和常用物种名
来源: 主要从https://species.wikimedia.org收集
存储方式: 每个属一个JSON文件

当前状态

目前仅包含鸟类和哺乳动物的数据

待办事项

处理名称中的HTML标签，如<small>标签
添加科学名称的同义词，例如：
- Fulica caribaea 是 Fulica americana 的同义词
- Neohierax insignis 是 Polihierax insignis 的同义词
- Nystalus torridus 是 Nystalus striolatus torridus 的同义词
- Picoides 的科学同义词
- Tyto furcata 的科学同义词

贡献方式

通过Pull Request添加或更正翻译和物种信息
请附上参考资料

许可证

Creative Commons Attribution-ShareAlike License

搜集汇总

数据集介绍

构建方式

Species names dataset的构建主要依赖于从https://species.wikimedia.org网站中提取数据。该数据集以JSON格式存储，每个属（genera）的数据被单独保存在一个文件中。目前，数据集仅涵盖了鸟类和哺乳动物的物种名称，未来计划扩展至其他生物类别。数据的收集和处理过程中，还考虑了科学名称的同义词问题，如Fulica caribaea与Fulica americana的同义关系。

使用方法

使用Species names dataset时，用户可以通过npm包管理器进行安装，具体命令为`npm install species-names-dataset`。安装后，用户可以通过运行`npm run test`来验证数据的完整性和正确性。数据集以JSON格式存储，用户可以直接读取和解析这些文件，以获取所需的物种名称信息。此外，用户还可以通过提交Pull Request来贡献新的物种名称或修正现有数据，需附上相关参考文献以确保数据的准确性。

背景与挑战

背景概述

Species names dataset 是一个专注于科学和常见物种名称的JSON格式数据集，主要数据来源于https://species.wikimedia.org。该数据集由species-names团队创建，旨在为研究人员和开发者提供一个结构化的物种名称数据库。目前，数据集仅涵盖了鸟类和哺乳动物，每个属的物种名称以单独的JSON文件存储。该数据集的发布不仅为生物多样性研究提供了便利，也为自然语言处理和知识图谱构建等领域提供了重要的数据支持。

当前挑战

Species names dataset 在构建过程中面临多重挑战。首先，数据集中存在HTML标签嵌入物种名称的问题，如`<small>`标签的误用，这影响了数据的纯净性和可用性。其次，科学名称的同义词处理尚未完善，例如Fulica caribaea与Fulica americana的同义关系尚未明确标注，这增加了数据整合的复杂性。此外，数据集的覆盖范围目前仅限于鸟类和哺乳动物，扩展至其他生物类别仍需大量工作。这些挑战不仅影响了数据集的完整性，也限制了其在更广泛领域的应用潜力。

常用场景

经典使用场景

Species names dataset在生物信息学和分类学研究中扮演着重要角色，主要用于物种名称的标准化和统一。该数据集以JSON格式存储，便于开发者和研究人员快速访问和查询物种的学名和俗名。其经典使用场景包括生物多样性数据库的构建、物种分类系统的更新以及跨语言物种名称的翻译工作。

解决学术问题

该数据集有效解决了物种名称在学术研究中的不一致性问题。通过提供权威的物种名称及其同义词，研究人员能够避免因名称混淆而导致的错误分类和数据重复。此外，该数据集还为物种分类学、生态学和进化生物学等领域的研究提供了可靠的基础数据，推动了这些领域的科学进展。

实际应用

在实际应用中，Species names dataset被广泛用于生物多样性监测、自然保护区的物种名录编制以及环境评估项目。例如，环保组织可以利用该数据集快速识别和记录特定区域的物种分布，从而制定更有效的保护策略。此外，该数据集还为生物技术公司和制药企业提供了物种信息支持，助力新药研发和生物资源开发。

数据集最近研究