USDA Phytochemical & Ethnobotanical Database — Enriched v2.1

github2026-03-21 更新2026-03-20 收录

下载链接：

https://github.com/wirthal1990-tech/USDA-Phytochemical-Database-JSON

下载链接

链接失效反馈

官方服务：

资源简介：

唯一的植物化学数据集，结合了USDA植物记录、PubMed引用计数、ClinicalTrials.gov研究计数、ChEMBL生物活性评分、USPTO专利密度和PubChem CID/SMILES，以生产就绪的JSON + Parquet格式提供。

The one-of-a-kind phytochemical dataset integrates USDA plant records, PubMed citation counts, study counts from ClinicalTrials.gov, ChEMBL bioactivity scores, USPTO patent density, and PubChem CID/SMILES, and is provided in production-ready JSON and Parquet formats.

创建时间：

2026-03-04

原始信息汇总

USDA Phytochemical & Ethnobotanical Database — Enriched v2.0 数据集概述

基本信息

数据集名称: USDA Phytochemical & Ethnobotanical Database — Enriched v2.0
数据集标识: wirthal1990-tech/USDA-Phytochemical-Database-JSON
创建者: Alexander Wirth
发布日期: 2026年
许可证: CC BY 4.0 (免费样本)；商业使用需购买许可证
语言: 英语
数据规模: 76,907条记录 (完整数据集)；400条记录 (免费样本)
数据格式: JSON, Parquet
DOI: https://doi.org/10.5281/zenodo.19053087

数据内容与结构

核心字段

数据集包含8个字段，具体如下：

chemical (字符串): 标准化化合物名称 (基于USDA Duke命名法)
plant_species (字符串): 植物物种的拉丁学名
application (字符串): 传统药用用途 (例如“Antiinflammatory”)，约50%为空值
dosage (字符串): 报告的剂量、浓度或IC50值，约87%为空值
pubmed_mentions_2026 (整数): 截至2026年3月，PubMed中提及该化合物的出版物总数
clinical_trials_count_2026 (整数): 截至2026年3月，ClinicalTrials.gov中该化合物的研究数量
chembl_bioactivity_count (整数): ChEMBL中记录的生物活性测量数量
patent_count_since_2020 (整数): 2020年1月1日以来USPTO PatentsView中提及该化合物的美国专利数量

数据统计

总记录数: 76,907
唯一化合物数: 24,746
植物物种数: 2,313
数据丰富层: 4层 (PubMed, ClinicalTrials.gov, ChEMBL, USPTO PatentsView)

数据来源与处理

主要来源

USDA Dr. Duke’s Phytochemical and Ethnobotanical Databases (https://phytochem.nal.usda.gov/): 提供植物-化合物-应用的基础数据。
NCBI PubMed (https://pubmed.ncbi.nlm.nih.gov/): 提供化合物级别的出版物证据评分。
ClinicalTrials.gov (https://clinicaltrials.gov/): 提供化合物级别的临床研究活动评分。
ChEMBL (https://www.ebi.ac.uk/chembl/): 提供化合物级别的生物活性测量深度。
USPTO PatentsView (https://patentsview.org/): 提供化合物级别的商业知识产权活动评分。

数据处理

数据清洗: 原始104,388条记录经过清洗，移除了常量营养素和完全重复项，得到76,907条记录。
数据验证: 于2026年3月16日完成审计验证。
快照时间: 所有丰富层数据均基于2026年3月的快照。

访问与获取

免费样本

内容: 400条记录，包含所有8个字段及真实的丰富层数值。
获取地址: https://huggingface.co/datasets/wirthal1990-tech/USDA-Phytochemical-Database-JSON
文件:
- ethno_sample_400.json (108 KB)
- ethno_sample_400.parquet (20 KB)
- quickstart.ipynb (9 KB)

完整数据集 (商业许可)

完整数据集需通过购买获取，购买后通过 https://ethno-api.com 下载。 许可层级与价格:

Single Entity: 一次性费用 €299 (早鸟价，原价 €699)。包含JSON、Parquet文件及SHA-256清单。供单个法律实体内部使用。
Team: 一次性费用 €549 (早鸟价，原价 €1,349)。在Single基础上增加DuckDB查询脚本、化合物优先级评分脚本及4个预计算视图。供单个法律实体内部无限用户使用。
Enterprise: 一次性费用 €899 (早鸟价，原价 €1,699)。在Team基础上增加Snowflake加载脚本、向量数据库嵌入脚本、嵌入指南及额外分析文件。允许多实体/集团使用及内部产品集成。

主要应用场景

RAG管道: 为大型语言模型提供经过验证的植物化学数据，利用PubMed证据评分加权检索结果并过滤幻觉。
药物发现: 结合PubMed引用、临床试验、ChEMBL生物活性深度和专利态势，优先考虑天然产物先导化合物。
市场情报: 利用专利密度评分分析哪些化合物正在吸引商业投资。
学术研究: 使用预计算的证据评分，节省文献检索时间。

版本历史

v1.0: 104,388条记录，5个字段 (USDA基线)，已弃用。
v2.0 (当前版本): 76,907条记录，8个字段 (增加了PubMed、ClinicalTrials、ChEMBL、Patents丰富层)。

引用格式

@misc{ethno_api_v2_2026, title = {USDA Phytochemical & Ethnobotanical Database --- Enriched v2.0}, author = {Wirth, Alexander}, year = {2026}, publisher = {Ethno-API}, url = {https://ethno-api.com}, doi = {10.5281/zenodo.19053087}, note = {76,907 records, 24,746 unique chemicals, 2,313 plant species, 8-column schema with PubMed, ClinicalTrials, ChEMBL, and PatentsView enrichment} }

搜集汇总

数据集介绍

构建方式

在植物化学与民族植物学领域，构建高质量数据集需整合多源异构数据并确保其科学严谨性。本数据集以美国农业部植物化学与民族植物学数据库为基础，经过系统清洗与规范化处理，移除了水、葡萄糖等常量营养素及完全重复记录，将原始104,388条记录精炼至76,907条。随后，通过自动化流程融合了四大权威科学数据库的实时信息：整合了截至2026年3月的PubMed文献引用计数、ClinicalTrials.gov临床试验数量、ChEMBL生物活性测量记录以及USPTO PatentsView自2020年以来的专利密度数据，最终形成包含八个核心字段的结构化表格数据。

特点

该数据集的核心特征在于其多维度的证据集成与生产就绪的格式。它不仅提供了标准化的化合物名称、植物物种及传统应用信息，更创新性地引入了四个量化证据层，为每个化合物赋予了可计算的科研与商业价值指标。数据集涵盖24,746种独特化合物与2,313个植物物种，以JSON和Parquet格式发布，确保了高效的数据访问与处理能力。其架构设计直接面向实际应用，证据字段如PubMed引用数等均无空值，而应用与剂量字段的空值率则真实反映了原始数据的覆盖范围，为药物发现与市场情报分析提供了可靠且可直接投入生产环境的数据基础。

使用方法

在生物信息学与计算药物发现研究中，该数据集支持多种灵活的使用范式。用户可通过Python的Pandas或PyArrow库直接加载免费的400行样本或完整数据集进行探索性分析。对于复杂查询，可利用DuckDB执行高效的分析操作，例如按临床试验数量对化合物进行排序。数据集亦无缝集成于Hugging Face平台，便于机器学习管道的构建。更高级的应用场景包括：基于检索增强生成技术构建可信的问答系统，利用预计算的证据分数为大型语言模型提供事实依据；或结合专利密度与临床试验数据，识别具有商业化潜力的天然产物先导化合物，从而显著加速从文献调研到决策支持的全流程。

背景与挑战

背景概述

植物化学与民族植物学数据库作为天然产物研究与药物发现的关键基础设施，其构建与整合历来面临数据分散与标准化不足的挑战。USDA Phytochemical & Ethnobotanical Database — Enriched v2.0 由 Alexander Wirth 于2026年创建，依托美国农业部（USDA）Dr. Duke的原始数据库，并融合了PubMed、ClinicalTrials.gov、ChEMBL及USPTO PatentsView四大权威数据源。该数据集的核心研究问题在于解决植物化学成分与其生物活性、临床研究及知识产权景观之间的关联缺失，旨在为计算药物发现、检索增强生成（RAG）管道及市场情报分析提供一站式、生产就绪的多维证据基准。其通过标准化24,746种化合物与2,313个植物物种的记录，显著提升了天然产物领域数据驱动的决策效率与研究可重复性。

当前挑战

该数据集致力于解决天然产物信息整合与证据量化中的核心挑战。在领域层面，传统植物化学数据常因来源异构、命名不一致及证据碎片化，导致药物先导化合物优先级排序与跨数据库检索困难重重。构建过程中的挑战尤为突出：原始USDA数据库包含16个关系表，需处理非显式外键关联与超过40%的字段缺失值；数据清洗需剔除大量营养素与重复条目，将初始104,388条记录精炼至76,907条；而跨源数据融合则要求对PubMed文献计数、临床试验统计、ChEMBL生物活性测量及专利密度进行时序对齐与标准化映射，确保2026年3月快照下各增强层数据的一致性与权威性。

常用场景

经典使用场景

在天然产物化学与药物发现领域，该数据集通过整合植物化学成分、传统应用信息及多维度科学证据，为研究人员提供了一个标准化的知识库。其经典使用场景体现在系统性地筛选和评估植物来源的活性化合物，例如基于槲皮素等成分的PubMed文献引用量、临床试验数量、生物活性测定数据及专利密度，快速识别具有高研究价值和开发潜力的候选分子，从而加速从传统药用植物到现代药物研发的转化进程。

实际应用

在实际应用中，该数据集为生物技术和制药行业的研发管线提供了直接的数据驱动决策工具。企业可利用其预计算的证据评分，快速评估天然产物库，优先选择那些既有深厚科学文献基础、又存在临床研究或专利布局空白的化合物进行深入开发。此外，该数据集的生产就绪格式（如Parquet、JSON）及其附带的工具脚本（如数据库加载、向量数据库嵌入指南），使其能够无缝集成到企业内部的检索增强生成（RAG）管道或数据分析平台中，用于构建基于事实的问答系统或市场情报仪表板，提升研发效率并降低信息误判风险。

衍生相关工作

围绕该数据集，已衍生出一系列专注于证据整合与智能检索的经典相关工作。例如，基于其构建的化合物优先级评分算法，能够综合PubMed提及数、临床试验计数等多指标对天然产物进行排序。同时，其提供的预计算视图（如Top-500化合物列表）和RAG集成工具（如ChromaDB、Pinecone嵌入脚本），为开发针对植物化学领域的专业知识检索系统奠定了基础。这些工作共同推动了从静态数据集到动态、可操作知识系统的演进，促进了计算民族植物学与人工智能辅助药物发现方法的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集