Winemag Dataset
收藏github2022-10-27 更新2024-05-31 收录
下载链接:
https://github.com/activatedgeek/winemag-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从Wine Enthusiast杂志收集的葡萄酒评论数据集,包含了葡萄酒的详细信息,如名称、评分、描述、价格等。
This dataset, collected from Wine Enthusiast magazine, comprises detailed wine reviews, including information such as the name, rating, description, and price of the wines.
创建时间:
2019-02-11
原始信息汇总
Winemag Dataset 概述
数据集属性
| Field | Type | Description | Example |
|---|---|---|---|
| url | str |
Full URL to the review | https://www.winemag.com/buying-guide/laurent-gauthier-2016-vieilles-vignes-cote-du-py-morgon/ |
| title | str |
Title/Name of the wine. WARNING: May include scraping errors. | Laurent Gauthier 2016 Vieilles Vignes Côte du Py (Morgon) |
| rating | int |
Wine rating on the 100-point scale | 91 |
| description | str |
Review of the wine | Wood aging has given spice to this rich, structured wine. Tannins and generous black fruits show through the still-young structure. This powerful wine, from one of the top vineyards in Morgon, will age well. Drink from 2020. |
| price | float, NULL |
Price in $ | 25 |
| designation | str, NULL |
Quality level of wine | Vieilles Vignes Côte du Py |
| varietal | str |
Grape Varietal/Blend name | Gamay |
| country | str |
Name of Country | France |
| region | str, NULL |
Region within a Country | Beaujolais |
| subregion | str, NULL |
Sub-region within a region | Morgon |
| subsubregion | str, NULL |
Detailed region | |
| winery | str |
Name of producer/winery | Laurent Gauthier |
| vintage | int, NULL |
Vintage (Year) of production | 2016 |
| alcohol | float, NULL |
Alcohol By Volume (ABV) in % | 13.5 |
| category | str |
Category of wine | Red |
搜集汇总
数据集介绍

构建方式
Winemag数据集是通过Scrapy框架构建的网络爬虫从Winemag网站上抓取的葡萄酒评论数据。该爬虫系统性地收集了包括葡萄酒的URL、标题、评分、描述、价格、等级、葡萄品种、国家、地区、子区域、酒庄、年份、酒精含量和类别等多项属性。数据抓取过程中,爬虫通过指定起始和结束页面来逐步获取数据,确保了数据的全面性和系统性。
特点
Winemag数据集的特点在于其丰富的数据维度和高质量的信息内容。数据集不仅包含了葡萄酒的基本信息如名称、评分和价格,还详细记录了葡萄酒的产地、葡萄品种、酒庄及年份等深度信息。此外,数据集中的每一条记录都附有专业的品酒描述,为葡萄酒的品鉴和研究提供了宝贵的参考。
使用方法
使用Winemag数据集时,用户首先需要配置好Scrapy环境,并通过命令行启动爬虫。用户可以通过指定起始和结束页面来控制数据抓取的范围,抓取的数据将自动保存为CSV格式文件。为了遵守网站的爬虫政策,建议用户每次抓取少量页面,以避免对网站服务器造成过大压力。此外,数据集还提供了原始数据的下载链接,方便用户直接获取和使用。
背景与挑战
背景概述
Winemag数据集是一个专注于葡萄酒评论的数据集,由Scrapy框架构建,旨在从Winemag网站抓取葡萄酒相关的详细信息。该数据集涵盖了葡萄酒的多种属性,包括评分、描述、价格、产地、葡萄品种、酒庄信息等。自创建以来,该数据集为葡萄酒行业的研究者和爱好者提供了丰富的数据资源,支持了葡萄酒品质分析、市场趋势预测以及消费者偏好研究等多个领域的研究工作。其广泛的应用不仅推动了葡萄酒行业的数字化转型,还为相关领域的学术研究提供了宝贵的数据支持。
当前挑战
Winemag数据集在构建和应用过程中面临多重挑战。首先,数据抓取过程中可能遇到网页结构变化或反爬虫机制,导致数据获取不稳定或部分数据缺失。其次,数据集中的某些字段(如年份、价格等)可能存在解析错误或数据不一致的问题,影响数据的准确性和可靠性。此外,由于葡萄酒评论涉及大量主观描述,如何有效提取和分析这些文本信息,以支持更深入的品质评估或消费者偏好研究,也是一个重要的技术挑战。最后,数据集的规模较大,处理和分析这些数据需要高性能计算资源,这对研究者的计算能力提出了较高要求。
常用场景
经典使用场景
Winemag数据集广泛应用于葡萄酒行业的市场分析和消费者行为研究中。通过分析葡萄酒的评分、价格、产地和品种等数据,研究人员能够深入理解不同市场细分中的消费者偏好和购买决策。此外,该数据集还被用于开发推荐系统,帮助消费者根据个人口味和预算选择适合的葡萄酒。
解决学术问题
Winemag数据集解决了葡萄酒研究领域中的多个关键问题,包括葡萄酒质量与价格之间的关系、不同产地和品种对消费者偏好的影响等。通过大规模的数据分析,研究人员能够揭示葡萄酒市场的动态变化,为葡萄酒生产商和销售商提供科学的决策支持。
衍生相关工作
基于Winemag数据集,许多经典的研究工作得以展开。例如,有研究利用该数据集开发了基于机器学习的葡萄酒质量预测模型,能够根据葡萄酒的产地、品种和价格等特征预测其评分。此外,还有研究利用该数据集分析了全球葡萄酒市场的消费趋势,揭示了不同地区消费者的偏好差异,为葡萄酒产业的全球化布局提供了重要参考。
以上内容由遇见数据集搜集并总结生成



