cannabis-strains
收藏Hugging Face2025-11-04 更新2025-11-05 收录
下载链接:
https://huggingface.co/datasets/JonusNattapong/cannabis-strains
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含8,910个 cannabis strain记录的全面数据集,从Seed City网站抓取而来,涵盖了详细的种植信息、定价和品种特征。数据集包括39个属性,如品种名称、育种者、描述、价格、种植和收获信息、品种类型、环境影响、强度、医疗品种、气味和味道、效果、气候、风味、THC和CBD含量、产量、植物高度、开花时间、收获月份、遗传背景、库存可用性、促销商品和最受欢迎的种子等。
创建时间:
2025-11-02
原始信息汇总
大麻品种数据集概述
数据集基本信息
- 数据集名称: Cannabis Strains Dataset
- 记录数量: 8,910个大麻品种
- 字段数量: 39个属性
- 数据来源: Seed City(英国种子银行)
- 最后更新: 2025年11月
- 数据完整性: 47.6%
- 价格范围: £0.00 - £999.79 GBP
- 数据格式: CSV(7.6MB)和Parquet(2.2MB,70.9%压缩比)
数据字段结构
核心列表信息
- strain_name:产品/品种名称
- breeder:品牌或育种者
- description:浏览页面的简短营销摘要
- current_price_gbp、original_price_gbp、discount_percent:GBP定价元数据
- pack_options:包装尺寸和GBP价格
- product_url、image_url:直接产品和缩略图链接
详细品种特征
- overview、growth_and_harvest、experience:详情页面的叙述部分
- seed_type、flowering_period_type、indica_sativa、type_ratio、strain_type_summary:分类学分类
- environment、strength、medical_strains、smell_taste、effect、climate、flavor:定性描述符
- thc、cbd:大麻素含量百分比
- yield_indoor、yield_outdoor:预期产量
- height_indoor、height_outdoor、indoor_height_detail:植物高度指标
- indoor_flowering_time、outdoor_harvest_time、flowering_time、harvest_month:种植时间线
- genetic_background:品种谱系信息
- stock_availability、sale_item、most_popular_seeds:商品销售标志
数据质量统计
- 整体数据完整性: 47.6%
- sale_item: 11.44%完整(88.56%缺失)
- discount_percent: 11.57%完整(88.43%缺失)
- outdoor_harvest_time: 36.74%完整(63.26%缺失)
- indoor_height_detail: 47.24%完整(52.76%缺失)
- smell_taste: 79.81%完整(20.19%缺失)
关键洞察
- 价格范围: £0.00 - £999.79 GBP
- 最常见类型: 雌性化种子(90%以上)
- 热门类别: 自动开花、籼稻优势、高THC品种
- 顶级育种者: Seed City Bulk Cannabis Seeds、Cannabis Seed Sale Items、Royal Queen Seeds
许可证信息
- 许可证类型: CC0 1.0 Universal(CC0 1.0)公共领域奉献
法律声明
本数据集仅供教育和研究用途。大麻法律因司法管辖区而异。请始终遵守当地有关大麻种植和使用的法规。
技术说明
- 数据集版本: v1.1.0
- 数据收集方法: 网络爬虫技术
- 数据验证: 对抓取内容进行质量检查
搜集汇总
数据集介绍

构建方式
在药用植物信息学领域,该数据集通过系统化网络爬取技术构建而成。采用云盾绕过机制与礼貌请求间隔策略,从英国种子银行Seed City的产品目录中提取了8910个品系数据。数据收集过程包含多层质量验证机制,通过稳健的重试逻辑确保信息完整性,最终形成包含39个维度的结构化数据集。
特点
该数据集囊括大麻品系的多维度特征,涵盖从基础的商品信息到专业的种植参数。核心特征包括品系分类学标识、 cannabinoid含量百分比、室内外种植产量预测等专业农艺指标,同时整合了价格策略与库存状态等商业维度。数据完整性达47.6%,完整保留了原始数据的缺失模式,为研究真实世界数据集提供了典型样本。
使用方法
研究人员可通过多种技术路径访问该数据集,推荐使用Parquet格式实现高效数据加载。数据集支持直接URL读取与Hugging Face平台集成两种调用方式,配合pandas等数据处理工具可实现快速探索性分析。典型应用场景包括品系分类研究、种植参数关联分析以及市场价格建模等农学与经济学交叉领域研究。
背景与挑战
背景概述
随着药用植物研究与农业生物技术领域的深入发展,大麻种质资源系统化记录成为植物表型组学的重要分支。该数据集由独立研究者Jonus Nattapong于2025年创建,整合英国种子银行Seed City的商业化品系数据,涵盖8910个栽培品系的39维特征参数。其核心价值在于构建跨越多尺度性状的标准化描述体系,包括植物形态特征、次生代谢物含量、物候期数据等关键农艺性状,为植物遗传育种与药物成分分析提供结构化数据支撑。
当前挑战
在解决品系表型精准分类问题时,面临性状描述文本的语义歧义与数值型数据缺失的双重挑战,如THC含量字段存在单位不统一与数值范围异常。数据构建过程中需突破动态反爬虫机制的技术壁垒,通过云盾穿透技术与自适应延时策略保障数据采集完整性,同时应对源数据47.6%的字段缺失率,建立多级验证机制确保性状描述与生化指标的逻辑一致性。
常用场景
经典使用场景
在植物遗传学与农业科学领域,该数据集为研究人员提供了系统分析大麻种质资源多样性的重要平台。通过整合近九千个品系的形态特征、化学成分及生长参数,学者能够深入探索不同基因型与表型之间的关联规律,为作物改良研究建立数据基础。
衍生相关工作
基于该数据集衍生的经典研究包括植物表型组学分析框架的构建,以及机器学习驱动的品种推荐系统开发。多项研究通过整合化学计量学与生长特征数据,建立了品系功效预测模型,为后续智能农业决策支持系统的创新奠定了理论基础。
数据集最近研究
最新研究方向
在药用植物基因组学领域,cannabis-strains数据集正推动着精准农业与个性化医疗的交叉研究。当前前沿聚焦于通过多模态特征融合分析,整合THC/CBD含量、遗传背景与生长环境等39维属性,构建表型-基因型关联模型。随着全球药用大麻合法化进程加速,该数据集成为药物开发与栽培优化的核心资源,尤其在癫痫、慢性疼痛等疾病治疗方案的靶向筛选方面展现潜力。其高维异构特性亦催生了新型缺失值处理算法在农业生物信息学中的应用探索,为作物育种数字化提供了范式转移。
以上内容由遇见数据集搜集并总结生成



