Atsushi/fungi_trait_circus_database
收藏Hugging Face2023-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Atsushi/fungi_trait_circus_database
下载链接
链接失效反馈官方服务:
资源简介:
大菌輪「Trait Circus」データセット(統制形質)是由中島淳志个人运营的网站大菌輪提供的数据集,利用自然语言处理技术半自动处理菌类描述文,提取并汇总菌类的形态和生态特征。数据集包含控制术语,这些术语由元素、属性和值三部分组成。例如,「傘_色_黒」分别表示「傘」、「色」、「黒」的元素、属性和值。数据集用于支持菌类分类学的学习和鉴定,通过一个名为Trait Circus的交互式可视化Web应用提供数据。数据集还包括各列的描述,如来源URL、提取的特征术语、菌类的现行学名和原始学名等。
提供机构:
Atsushi
原始信息汇总
大菌輪「Trait Circus」データセット(統制形質)
基本信息
- 数据集名称: 大菌輪「Trait Circus」データセット
- 最后更新日期: 2023/12/29
- 语言: 日语和英语
- 多语言性: 多语言
- 许可证: CC BY 4.0
- 数据来源: 原始数据
- 数据规模: 100K<n<1M
概述
中島淳志(Atsushi Nakajima)个人运营的网站大菌輪通过自然语言处理技术半自动处理菌类描述文本,提取菌类形态、生态等相关的各种“形质 (traits)”数据,并以预设的“統制語 (controlled term)”形式进行汇总,便于统计和分析。
数据集在2023/12/29进行了全面审查,并重新收集了几乎从头开始的数据。
統制語由“要素 (element)”、“属性(attribute)”、“値(value)”三部分组成。例如,“傘_色_黒”分别对应“傘”、“色”、“黒”的要素/属性/值。部分統制語中,要素和属性相同(如“生息環境”)。
数据集还用于菌类分类学学习和鉴定支持,基于此数据集的交互式可视化Web应用“Trait Circus”提供服务。本数据集是该Web应用的原始数据,包含未反映在Web应用中的信息。
相关数据集
- 論文3行まとめ: Atsushi/fungi_indexed_mycological_papers_japanese
- 識別形質まとめ: Atsushi/fungi_diagnostic_chars_comparison_japanese
各列说明
- source: 信息来源的URL,多数参考学术文献或MycoBank的描述文数据库。
- hit_term: 在来源中提取的形质表达。
- current_name: 具有该形质的菌的现行学名,参考MycoBank,但可能不是最新信息。
- original_name: 在来源中使用的菌的学名(自2023/12/29版起新增)。
- element_j: “要素”的日语表示。
- attribute_j: “属性”的日语表示。
- value_j: “値”的日语表示。
- element: “要素”的英语表示。
- attribute: “属性”的英语表示。
- value: “値”的英语表示。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个由个人通过自然语言处理半自动提取的大规模真菌性状数据库,包含约421万条记录,涵盖形态、生态等性状信息,以日语和英语为主。数据以'元素_属性_值'格式结构化,适用于非学术目的的分析和可视化,但需注意自动提取可能引入错误。
以上内容由遇见数据集搜集并总结生成



