Great American Coffee Taste Test|咖啡品鉴数据集|消费者偏好分析数据集
收藏咖啡偏好模式数据集 ☕
目标
调查和发现常见的咖啡偏好。
数据处理流程
数据集从Kaggle下载后,使用Python和Pandas、Numpy、Matplotlib等库进行数据清洗和处理,以便于可视化和获得更好的结果。
ETL过程
提取
从Kaggle下载数据集,链接为:https://www.kaggle.com/datasets/joebeachcapital/coffee-taste-test
转换
数据集非常脏,需要进行适当的更改以准备用于图形和可视化。首先导入Pandas、Numpy和Matplotlib等库,探索收集的数据以更好地理解,包括发现不一致的数据。发现一些不可用的列,这些列有大量的缺失值或不相关,因此丢弃了它们。随后,一些信息被合并为一个,为了解决这个问题,将它们分离为值列表。为了填补一些缺失的数据而不大幅改变未来的结果,使用箱线图进行可视化,以深入理解某些列,然后发现最佳的填充值。最后,将数据保存为CSV文件以在Power BI中使用,但发现了一个大错误,列值为列表,使用Power BI工具几乎不可能进行可视化。在尝试使用微软应用程序解决问题后,得出结论,无法在那里完成所需的操作。回到VsCode,创建了一些循环来滚动列表和每个项目的出现次数,成功地将结果保存为新表,这样就不会有Power BI的问题。
加载
清洗数据后,加载更新版本的数据,只有这样才能开始使用可视化工具。

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录