CO Counties Marijuana Dataset
收藏github2019-06-27 更新2024-05-31 收录
下载链接:
https://github.com/davelovesdata/CO-Marijuana-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
科罗拉多州各县大麻销售和税收数据集,用于分析和预测县级别的大麻销售情况。数据集包含2014至2018年的销售和税收数据,涵盖医疗和娱乐用途的大麻销售,以及相关的税收信息。
The dataset on marijuana sales and taxation by county in Colorado is designed for analyzing and predicting county-level marijuana sales. It encompasses sales and tax data from 2014 to 2018, covering both medical and recreational marijuana sales, along with associated tax information.
创建时间:
2018-12-29
原始信息汇总
数据集概述
数据集名称
CO Counties Marijuana Dataset
数据集作者
David Martinez
数据集联系方式
davelovesdata@gmail.com
数据集GitHub地址
https://github.com/davelovesdata/CO-Marijuana-Dataset
数据集目的
用于探索机器学习是否能预测县级别的销售情况。截至2018年8月,科罗拉多州64个县中约46%禁止医疗大麻销售,42%禁止娱乐大麻销售。
数据收集与处理方法
数据来源于科罗拉多州税务局,通过手动整理成两个Excel工作簿:CO_County_Sales_2014_2018.xlsx 和 CO_County_Taxes_2014_2018.xlxs。每个工作簿包含月度销售/税收数据(按年汇总)和累积销售/税收数据(多年汇总)。
数据集文件描述
-
销售文件 (CO_County_Sales_2014_2018.xlsx)
- **包含内容:**县级别的医疗和娱乐大麻销售数据,以及人口和位置信息(州、县、纬度、经度、区域)。此外,还计算了每县公民的医疗和娱乐大麻销售平均值。
- 数据字段:
- State: 目前仅为“COLORADO”
- County: 科罗拉多州县名
- Latitude: 县中心纬度
- Longitude: 县中心经度
- Region: 将州分为四个地理区域的任意分配
- Year: 收集年份
- Population: 人口普查报告期间估计的人口
- Med_Sales: 县级别的医疗大麻销售
- Rec_Sales: 县级别的娱乐大麻销售
- med_sales_per_citizen: 医疗大麻销售与人口的比值
- rec_sales_pre_citizen: 娱乐大麻销售与人口的比值
- 销售数据可能值:
- 0: 该县无合法大麻销售
- NR: 因保密要求不公开
- x: 正数,表示销售额
-
税收文件 (CO_County_Taxes_2014_2018.xlsx)
- **包含内容:**县级别的税收数据,包括医疗销售税(2.9%)、零售销售税(2.9%)和零售大麻特别销售税。
- 数据字段:
- County: 科罗拉多州县名
- Year: 收集年份
- Medical Sales Tax (2.9%): 仅适用于医疗大麻的销售税
- Retail Sales Tax (2.9%): 适用于零售大麻的销售税,2018年起不再征收
- Retail Marijuana Special Sales Tax: 零售大麻销售的额外税
- 税收数据可能值:
- 0: 该县无合法大麻税收
- NR: 因保密要求不公开
- x: 数字,表示税收额,负值表示之前月份的税收超额返还
搜集汇总
数据集介绍

构建方式
CO Counties Marijuana Dataset数据集的构建是基于对科罗拉多州各郡县大麻销售及税收情况的详尽搜集与整理。数据采集自科罗拉多州收入部门发布的月度报告,并通过手工方式整合入两个Excel工作簿中,分别是CO_County_Sales_2014_2018.xlsx和CO_County_Taxes_2014_2018.xlsx,涵盖2014至2018年间各郡县每月及年度的总销售与税收数据。此外,数据集还包含了人口信息及地理位置信息,为分析提供了丰富的维度。
特点
本数据集的特色在于其详尽记录了科罗拉多州各郡县在大麻销售及税收方面的数据,不仅包括年度销售与税收的汇总数据,还包含了按人口平均计算的销售数据。数据集的完整性体现在对于无销售或因保密要求无法公开的数据也进行了标记,使得数据集能够全面反映州内各郡县在大麻销售方面的变化趋势及政策采纳情况。
使用方法
用户可通过访问数据集的GitHub页面来获取数据,并根据需要选择销售数据或税收数据进行分析。数据集以Excel格式存储,便于用户进行数据探索和后续的机器学习建模。用户需注意的是,数据集中的部分字段采用了特定的编码方式,例如'NR'代表数据不可公开,而'0'和'x'则分别代表无销售和具体的销售金额,正确解读这些编码对于数据的有效利用至关重要。
背景与挑战
背景概述
CO Counties Marijuana Dataset是由David Martinez创建的数据集,旨在探究机器学习技术是否能够预测科罗拉多州各县的销售额。该数据集收集于2018年8月,当时科罗拉多州64个县中有30个县(占46%)禁止销售医用大麻,27个县(占42%)禁止销售娱乐用大麻。作为一个增长迅速的市场,若机器学习预测分析被证实有效,将有助于确定企业努力优先关注的县份。此数据集的构建,为研究大麻销售市场预测提供了宝贵的资源,对市场分析及政策制定具有一定的参考价值。
当前挑战
该数据集在构建过程中面临了诸多挑战。首先,数据收集与处理方面,数据来源于科罗拉多州财政部的多个公开数据集,需经过人工整理和清洗。其次,数据集在确保隐私与保密性的同时,还需呈现一个完整的州级视图,这导致了部分数据的标记为'NR'(不可发布)。此外,数据集在解决如何利用机器学习进行精准销售预测的问题上,还需克服模型选择、特征工程以及预测准确性的挑战。
常用场景
经典使用场景
CO Counties Marijuana Dataset作为探究机器学习在预测县级销售中的应用工具,其经典使用场景在于,研究者可借此数据集分析不同地区大麻销售趋势,进而预测各县的潜在销售量,为行业决策提供数据支撑。
解决学术问题
该数据集解决了如何利用机器学习进行地域性销售预测的学术问题,对市场潜力进行量化分析,有助于理解地区差异对销售的影响,为政策制定者和行业投资者提供了重要的决策参考。
衍生相关工作
基于该数据集,衍生出了一系列相关研究工作,包括对大麻市场进行更深入的数据挖掘,构建预测模型,以及探讨政策变化对市场动态的影响等,这些工作进一步推动了相关领域的学术讨论和应用发展。
以上内容由遇见数据集搜集并总结生成



