winequality-red.csv|葡萄酒质量数据集|数据分析数据集
收藏葡萄酒质量预测
概述
本项目利用数据科学和机器学习技术,基于物理化学特性预测红葡萄酒的质量。
数据集
数据集(winequality-red.csv
)包含1599条红葡萄酒质量指标观测数据,具有11个特征,包括各种物理化学测试和0到10的质量评分。
项目结构
- 数据加载和初步探索:加载数据集并进行初步探索。
- 探索性数据分析(EDA):可视化数据分布和相关性。
- 模型构建和评估:构建回归模型(线性回归、决策树回归和随机森林回归)来预测葡萄酒质量。使用均方误差(MSE)和R平方(R2)评分指标评估模型性能。
要求
确保安装以下Python库:
pandas==1.3.5 numpy==1.21.5 matplotlib==3.5.1 seaborn==0.11.2 scikit-learn==1.0.2
使用pip install -r requirements.txt
安装所需库。
使用方法
- 克隆仓库:
git clone <repository-url> cd <repository-name>
- 下载数据集(
winequality-red.csv
)并将其放置在项目目录中。 - 运行Jupyter Notebook(
Wine_Quality_Prediction.ipynb
)以执行项目步骤并查看结果。
结论
本项目展示了使用Python进行数据预处理、探索性数据分析和机器学习模型构建,以预测葡萄酒质量。欢迎探索和修改代码,以增强您在数据科学方面的理解和技能。

Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
Cultural Dimensions Dataset
该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。
geerthofstede.com 收录
Global Flood Database (GFD)
全球洪水数据库(GFD)是一个包含全球范围内洪水事件记录的数据集。该数据集提供了详细的洪水事件信息,包括洪水发生的时间、地点、影响范围、受灾人口和财产损失等。数据集的目的是为了支持洪水风险评估、灾害管理和气候变化研究。
global-flood-database.cloudtostreet.info 收录