USDA-Phytochemical-Database-Sample

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/wirthal1990-tech/USDA-Phytochemical-Database-Sample

下载链接

链接失效反馈

官方服务：

资源简介：

USDA植物化学与民族植物学数据库增强版v2.0是一个综合性的数据集，结合了USDA植物记录、PubMed引用次数、ClinicalTrials.gov研究计数、ChEMBL生物活性评分和USPTO专利密度。该数据集包含104,388条记录，涵盖24,771种独特化合物和2,315种植物物种。每条记录包含标准化化合物名称、植物物种拉丁学名、传统药用应用、剂量信息以及四个权威数据库的增强数据。数据集适用于RAG管道、药物发现、市场情报和学术研究等场景。数据集以JSON和Parquet格式提供，包含一个免费的400行样本和完整的商业版本。

创建时间：

2026-03-04

原始信息汇总

USDA Phytochemical & Ethnobotanical Database — Enriched v2.0 数据集概述

数据集基本信息

数据集名称: USDA Phytochemical & Ethnobotanical Database — Enriched v2.0
数据集标识: wirthal1990-tech/USDA-Phytochemical-Database-Sample
创建者: machine-generated
语言: 英语 (en)
语言来源: found
多语言性: monolingual
许可协议: cc-by-nc-4.0
规模类别: 100K<n<1M
源数据集: original
任务类别: tabular-classification, feature-extraction, text-classification, question-answering
标签: phytochemistry, ethnobotany, drug-discovery, natural-products, chemoinformatics, bioactivity, clinical-trials, patents, rag, mlops, parquet, pubmed, usda, llm-grounding, biotech

数据规模与构成

总记录数: 104,388 行
唯一化合物数: 24,771 种
植物物种数: 2,315 种
样本集记录数: 400 行
数据格式: JSON 和 Parquet
数据分割: 仅包含一个名为 "sample" 的分割，包含 400 个示例。

数据模式 (Schema v2.0)

列名	数据类型	空值率	描述
`chemical`	`string`	0%	标准化化合物名称 (USDA Dukes 命名法)
`plant_species`	`string`	0%	双名法拉丁物种名称
`application`	`string`	~40%	传统药用用途 (例如 "Antiinflammatory")
`dosage`	`string`	~55%	报告的剂量、浓度或 IC50 值
`pubmed_mentions_2026`	`int32`	0%	PubMed 出版物提及该化合物的总数 (2026年3月快照)
`clinical_trials_count_2026`	`int32`	0%	ClinicalTrials.gov 中每个化合物的研究计数 (2026年3月)
`chembl_bioactivity_count`	`int32`	0%	ChEMBL 记录的生物活性测量计数
`patent_count_since_2020`	`int32`	0%	2020-01-01 以来提及该化合物的美国专利数 (USPTO PatentsView)

数据来源与方法论

来源	访问方式	日期	方法
USDA Dr. Dukes Phytochemical and Ethnobotanical Databases	公共领域	2026	完整的 16 表 PostgreSQL 导入，已标准化
NCBI PubMed	E-utilities API	2026年3月	每个化合物的 `esearch`，总出版物计数
ClinicalTrials.gov	v2 API	2026年3月	每个化合物名称的研究计数
ChEMBL	REST API (v34)	2026年3月	通过分子搜索获得的生物活性测量计数
USPTO PatentsView	REST API v1 (`search.patentsview.org/api/v1/patent/`)	2026年3月	2020-01-01 以来提及化合物的美国专利计数

文件清单

文件	大小	格式	访问权限
`ethno_sample_400.json`	67 KB	JSON	免费
`ethno_sample_400.parquet`	15 KB	Parquet	免费
`ethno_dataset_2026_v2.json`	~18 MB	JSON	商业许可 (€699)
`ethno_dataset_2026_v2.parquet`	~900 KB	Parquet	商业许可 (€699)
`MANIFEST_v2.json`	~1 KB	JSON	购买后包含
`quickstart.ipynb`	6 KB	Notebook	免费

数据集版本

版本	记录数	模式	状态
v1.0	104,388	5 列 (USDA 基线)	已弃用
v2.0	104,388	8 列 (+ PubMed, ClinicalTrials, ChEMBL, Patents)	当前版本

许可与访问

免费 400 行样本: 遵循 CC BY-NC 4.0 许可，可用于评估、学术研究和原型设计。
完整 104,388 行数据集: 单一实体商业许可，需一次性购买 €699。禁止再分发、转售和发布衍生数据集。

引用格式

bibtex @misc{ethno_api_v2_2026, title = {USDA Phytochemical & Ethnobotanical Database --- Enriched v2.0}, author = {Wirth, Alexander}, year = {2026}, publisher = {Ethno-API}, url = {https://ethno-api.com}, note = {104,388 records, 24,771 unique chemicals, 2,315 plant species, 8-column schema with PubMed, ClinicalTrials, ChEMBL, and PatentsView enrichment} }

搜集汇总

数据集介绍

构建方式

在植物化学与民族植物学领域，数据整合的复杂性往往阻碍研究的深入。本数据集以美国农业部杜克博士植物化学与民族植物学数据库为核心基础，通过系统化流程构建而成。原始数据涵盖16个关系型表格，需进行非显式外键关联、物种名称标准化以及应用字段的空值处理。随后，数据集整合了来自PubMed、ClinicalTrials.gov、ChEMBL及USPTO PatentsView四大权威数据库的增强信息，采用确定性脚本进行异步查询与交叉引用，最终形成包含八列特征、十万余条记录的结构化数据集。

特点

该数据集的核心特征在于其多维度的信息融合与生产就绪的数据质量。每条记录不仅包含标准化的化合物名称、植物物种及其传统应用与剂量信息，更集成了截至2026年的PubMed文献引用数、临床试验数量、ChEMBL生物活性测定记录以及2020年以来的美国专利密度。这种设计使得数据集能够同时反映化合物的学术关注度、临床研究进展、生物活性证据强度及商业开发热度，为基于证据的决策提供了量化支撑。所有字段均经过完整性校验，并以JSON与Parquet两种高效格式提供，确保了数据的直接可用性。

使用方法

针对不同应用场景，数据集提供了灵活多样的访问方式。研究人员可通过HuggingFace Datasets库直接加载400行的免费样本进行初步探索，或使用Pandas、PyArrow读取完整数据集进行数据分析。对于复杂的聚合查询，如筛选具有特定抗炎应用且临床试验数量领先的化合物，可利用DuckDB执行高效的SQL操作。在药物发现或市场情报分析中，用户可依据PubMed引用数、专利密度等字段对天然产物进行优先级排序，或将其嵌入检索增强生成（RAG）流程，为大型语言模型提供经过验证的事实依据，有效抑制幻觉生成。

背景与挑战

背景概述

植物化学与民族植物学数据库作为天然产物研究与药物发现的重要基础，其构建与整合长期面临数据分散与标准化不足的挑战。USDA-Phytochemical-Database-Sample数据集由Alexander Wirth及其团队于2026年创建，旨在系统整合美国农业部植物化学原始数据与多源生物医学证据。该数据集核心研究问题聚焦于解决植物化学成分、传统药用信息与现代科研证据之间的关联断裂，通过融合USDA植物记录、PubMed文献计量、临床试验统计、ChEMBL生物活性数据及专利信息，为计算药物发现与证据驱动的民族植物学研究提供结构化知识基础。其多维度数据架构显著提升了天然产物筛选效率，并为大语言模型在生物医学领域的可靠知识检索奠定了实证基础。

当前挑战

该数据集致力于解决植物化学与民族植物学领域证据整合的复杂挑战，其核心问题在于如何从海量异构数据源中准确提取并关联化学成分、生物活性与临床应用信息。具体构建挑战体现在多源数据标准化层面：原始USDA数据库包含16个关系表，需通过非显式外键进行精确关联，同时处理超过40%的传统应用字段缺失值，并将物种名称规范化为标准双名法命名体系。此外，跨数据库异步检索流程需协调PubMed、ClinicalTrials.gov、ChEMBL及USPTO四大权威数据源的API接口，设计具备容错与断点续传能力的分布式采集管道，确保数十万条记录在化学实体归一化与证据计量统计过程中的数据一致性与时效性。

常用场景

经典使用场景

在植物化学与药物发现领域，该数据集为研究人员提供了标准化的植物化学成分与物种关联信息，结合了PubMed文献引用、临床试验计数、ChEMBL生物活性数据及专利密度等多维度指标。其经典使用场景在于支持基于证据的天然产物筛选，通过整合跨数据库的量化指标，研究者能够高效识别具有高研究价值或潜在治疗活性的化合物，从而加速先导化合物的发现与验证过程。

实际应用

在实际应用中，该数据集被广泛集成于检索增强生成（RAG）管道，为大型语言模型提供经过验证的植物化学知识基础，有效减少模型幻觉。同时，生物技术公司利用其多维指标进行市场情报分析，通过专利密度与临床试验数据评估化合物的商业化潜力，辅助投资决策与知识产权布局，实现从学术研究到产业应用的顺畅衔接。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括开发基于证据权重的化合物优先级排序算法、构建专用于植物化学领域的知识图谱，以及设计结合生物活性与专利景观的预测模型。这些工作进一步拓展了数据集在计算化学、生物信息学及人工智能辅助药物设计中的应用深度，推动了跨学科方法在天然产物研究中的创新与整合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集