Cannabis Intelligence Database

github2025-11-29 更新2025-11-30 收录

下载链接：

https://github.com/Shannon-Goddard/cannabis-intelligence-database

下载链接

链接失效反馈

官方服务：

资源简介：

世界上最大的大麻遗传学知识库，包含15,740个大麻品种和8,792个AI提取的数据点。该数据集从14,300个丰富的品种描述中提取了THC含量、CBD含量、遗传比例、开花时间、效果和风味等关键信息，涵盖200多个专业育种者的品种，提供REST API、CSV下载和交互式浏览器等多种访问方式。

The world's largest cannabis genetics knowledge base contains 15,740 cannabis cultivars and 8,792 AI-extracted data points. Key information including THC content, CBD content, genetic ratios, flowering time, effects and flavors is extracted from 14,300 detailed cultivar descriptions. Covering cultivars from over 200 professional breeders, this dataset provides multiple access methods such as REST API, CSV download and an interactive browser.

创建时间：

2025-11-19

原始信息汇总

Cannabis Intelligence Database 数据集概述

数据集基本信息

数据集名称: Cannabis Intelligence Database
作者: Amazon Q. & Goddard, S. (2025)
DOI: https://doi.org/10.5281/zenodo.17645958
许可证: MIT License
数据格式: CSV, JSON (API)
编程语言要求: Python 3.12+

数据规模与成就

总菌株数量: 15,768个
AI提取数据点: 8,792个
里程碑: 超过10,000个目标完成57%
专业育种者: 200+个
数据完整性: 90.6%（包含丰富描述）
平均成功率: 96.2%

AI智能提取成果

提取数据类型与数量

THC含量: 2,890个精确值（增加500%+）
CBD含量: 1,264个大麻素谱（增加300%+）
遗传比率: 4,564个sativa/indica百分比（增加1000%+）
开花时间: 74个栽培窗口
效果与风味: 9,483个描述性谱

处理规模

处理描述文本: 14,300个丰富菌株描述
总增强数据: 8,792个新数据点

数据访问方式

API访问

基础URL: https://api.loyal9.app
响应时间: <500ms
运行状态: 生产环境

主要API端点

统计信息: GET /v1/stats
菌株列表: GET /v1/strains
搜索: GET /v1/search?q={query}
育种者信息: GET /v1/breeders/{name}
菌株详情: GET /v1/strains/{name}

数据下载

CSV文件: https://github.com/Shannon-Goddard/cannabis-intelligence-database/raw/main/data/LEGENDARY_Cannabis_Intelligence_Database_15778_Strains_AI_Enhanced.csv
交互式浏览: https://shannon-goddard.github.io/cannabis-intelligence-database/

主要数据来源

顶级贡献来源

The Attitude Seed Bank: 7,734菌株（99.5%成功率）
North Atlantic Seed Co: 2,934菌株（100%成功率）
Neptune Seed Bank: 2,048菌株（99.8%成功率）
Multiverse Beans: 1,227菌株（优质自花品种）
Seedsman: 984菌株（100% GraphQL成功率）

AI提取技术

模式识别能力

THC/CBD提取：精确百分比范围和单一值
遗传分析：Sativa/indica比率与置信度评分
开花智能：以周/天为单位的栽培时间
效果挖掘：欣快、放松、精力充沛、创造性特征
风味分析：萜烯和口味描述
产量智能：生产估计和测量

数据质量保证

验证：数值数据类型强制
去重：智能重复移除
标准化：一致的单位和格式
完整性：90.6%菌株具有丰富可提取数据

技术架构

AI增强数据管道

收集：BrightData Web解锁器（99.8%成功率）
处理：高级正则表达式模式匹配
提取：从14,300个描述中提取8,792个数据点
存储：AWS DynamoDB优化模式
API：无服务器Lambda + API Gateway部署

基础设施

AWS无服务器：自动扩展，成本效益高
安全性：IAM角色，SSL证书，加密存储
性能：<500ms响应时间，99.9%正常运行时间
成本：<$1/月运营费用

应用领域

学术研究

遗传多样性研究：4,564个具有精确遗传比率的菌株
大麻素研究：2,890+ THC和1,268+ CBD谱
栽培科学：开花时间、产量、生长条件
市场分析：育种者趋势、菌株流行度、定价

商业应用

栽培规划：AI提取的生长智能
菌株推荐：多育种者比较引擎
质量保证：标准化栽培指标
产品开发：数据驱动的育种洞察

引用信息

bibtex @dataset{goddard_cannabis_2025, author = {Amazon Q. and Goddard, Shannon}, title = {Cannabis Intelligence Database: AI-Enhanced Multi-Breeder Genetics Repository}, year = {2025}, publisher = {Zenodo}, doi = {10.5281/zenodo.17645958}, url = {https://api.loyal9.app}, note = {15,768 strains with 8,792 AI-extracted data points from 200+ breeders} }

搜集汇总

数据集介绍

构建方式

在药用植物基因组学研究领域，该数据集通过BrightData网络采集系统对全球200余家专业育种机构的公开资料进行系统化收集，运用先进的正则表达式模式识别技术，从14,300条大麻品系描述文本中自动提取关键参数。通过人工智能驱动的自然语言处理流程，成功构建出包含15,768个独特品系的数据仓库，实现了从非结构化文本到标准化数据的智能转化，数据采集成功率高达99.8%。

特点

作为全球规模最大的大麻遗传资源库，该数据集最显著的特征在于其通过AI技术提取的8,792个高质量数据点，涵盖四氢大麻酚含量、大麻二酚谱系、遗传比例等核心参数。数据集整合了来自专业育种机构的标准化描述，包含4,564个品系的精确遗传比率数据和2,890个四氢大麻酚定量记录，数据完整度达到90.6%，为植物遗传学研究提供了前所未有的数据粒度与覆盖广度。

使用方法

研究团队可通过多种技术路径访问该数据集：基于REST架构的实时API接口支持毫秒级数据查询，开发者可通过标准化端点获取品系详情与育种信息；完整数据集以CSV格式提供离线分析支持，包含全部AI增强字段；交互式网页浏览器则赋予研究者可视化的数据探索能力，支持多维度筛选与关键词检索。所有访问方式均遵循MIT开源协议，确保学术研究的合规性与可重复性。

背景与挑战

背景概述

随着全球药用植物研究深入发展，大麻遗传资源系统化整理成为植物学与农业科技交叉领域的重要课题。Cannabis Intelligence Database由Amazon Q.与Shannon Goddard于2025年创建，作为全球规模最大的大麻基因资源库，整合了来自200余个专业育种机构的15740个品系数据。该数据库通过先进人工智能技术从14300份品系描述中提取8792个结构化数据点，涵盖四氢大麻酚含量、大麻二酚谱系、遗传比率等关键维度，为药用植物遗传多样性研究、精准栽培及 cannabinoid 药理分析提供了前所未有的数据支撑。

当前挑战

在构建全球大麻基因资源库的过程中，面临两大核心挑战：其一，领域问题的复杂性体现在大麻品系表型数据标准化缺失，传统描述性文本中有效信息提取困难，需突破非结构化文本中有效成分含量与遗传特征的精准识别；其二，技术实施层面需攻克多源异构数据的整合难题，通过高级模式匹配与自然语言处理技术，从91.5%-100%成功率的网络采集数据中实现数值验证、去重标准化，最终达成90.6%数据完整性的工业级标准。

常用场景

经典使用场景

在药用植物基因组学研究领域，Cannabis Intelligence Database凭借其15740个品种的遗传信息与8792个AI提取数据点，为遗传多样性分析提供了坚实基础。该数据集通过精确的大麻素含量、遗传比例和开花时间等结构化数据，支撑了品种特性比较与基因表达关联研究，成为植物遗传学领域不可或缺的基准资源。

解决学术问题

该数据库有效解决了大麻研究领域长期存在的数据碎片化问题，通过标准化提取的2890个THC含量值与4564个遗传比例数据，显著提升了药用成分与遗传特征关联研究的可信度。其AI增强的数据提取技术突破了传统人工标注的局限，为 cannabinoid 作用机制和栽培表型研究提供了前所未有的数据支撑。

衍生相关工作

基于该数据集衍生的经典研究包括多模态遗传图谱构建、栽培适应性预测模型等突破性工作。这些研究充分利用AI提取的性状数据，开发出新型品种推荐算法与生长环境优化系统，持续推动着精准园艺与植物科学的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集