five

whiskey_dataset|威士忌分类数据集|特征分析数据集

收藏
huggingface2025-05-06 更新2025-05-07 收录
威士忌分类
特征分析
下载链接:
https://huggingface.co/datasets/Rogudev/whiskey_dataset
下载链接
链接失效反馈
资源简介:
这是一个模拟生成的威士忌分类数据集,包含了品牌、类型、年龄、酒精度、地区、桶型、装瓶类型、价格、是否限量版、发行年份、平均评分、获奖次数、评分类别和价格类别等信息,用于模拟真实世界中的威士忌分类任务。
创建时间:
2025-05-01
原始信息汇总

威士忌分类数据集概述

数据集基本信息

  • 许可证: MIT
  • 生成方式: 通过Python函数生成的合成数据集,模拟真实威士忌分类数据

数据生成方法

  • 使用Python函数generate_whiskey()生成
  • 默认生成500行数据
  • 包含平衡且打乱的价格类别数据

数据字段说明

字段名 描述
whiskey_name 威士忌名称(品牌+年龄+木桶类型)
brand 品牌名称
type 威士忌类型
age 年份(0表示无年份声明)
abv 酒精度数(40-60%)
region 产区
cask_type 木桶类型
bottling_type 装瓶类型
retail_price_usd 零售价格(美元)
is_limited_edition 是否限量版
release_year 发布年份
average_rating 平均评分
award_wins 获奖数量
rating_category 评分等级
category 价格类别

数据特征

  • 品牌: 包含Macallan、Glenfiddich等10个品牌
  • 类型: 包含Scotch、Bourbon等5种类型
  • 价格类别: 分为Basic、Standard、Premium、Exclusive、Luxury五类
  • 评分等级: 分为Low、Medium、High、Excelent四级
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过Python脚本模拟生成,旨在为威士忌分类任务提供合成数据。构建过程中采用了多种随机化技术,包括品牌、类型、地区、酒龄、酒精度等核心特征的均匀抽样,以及价格区间和评级的正态分布模拟。数据集通过分层抽样确保五个价格类别的平衡分布,并引入泊松分布模拟获奖次数,使数据分布更贴近真实场景。所有生成记录经过随机打乱处理,最终形成包含15个特征字段的结构化数据。
特点
数据集涵盖全球主流威士忌品牌和酒类,包含苏格兰单一麦芽、波本、黑麦等五大酒型及其原产地细分信息。特征设计上融合了酒龄、木桶类型、装瓶方式等专业维度,并创新性地将价格区间与评级体系建立统计关联。特别模拟了限量版标识和获奖次数等稀缺特征,其评级分类采用基于正态分布的动态阈值划分,能有效反映高端酒类的品质梯度。数据规模适中且类别平衡,适合开展多维度分类研究。
使用方法
该数据集可直接加载为Pandas DataFrame进行机器学习任务,各字段已预处理好缺失值和数据类型。建议将零售价格、酒龄和酒精度作为连续变量处理,品牌、地区等作为分类变量。评级分类和价格类别适合作为预测目标,可通过特征工程挖掘酒龄与评分的非线性关系。实验时需注意限量版样本的稀疏性,可采用分层抽样保持验证集的类别分布。数据集兼容常见分类算法,特别适合研究特征交互作用对高端消费品定价的影响机制。
背景与挑战
背景概述
威士忌分类数据集whiskey_dataset由研究人员通过合成数据生成方法构建,旨在模拟真实威士忌市场中的多维度特征分布。该数据集涵盖了品牌、类型、年份、酒精度、产区、桶型等关键属性,并按照价格区间划分为基础款、标准款、高端款等五个等级。通过程序化生成技术,数据集确保了类别平衡性和特征多样性,为酒类品质评估与市场分析研究提供了标准化测试基准。其合成数据策略有效解决了真实商业数据获取困难的问题,特别适用于机器学习模型在酒类商品分类与价格预测等场景的算法验证。
当前挑战
该数据集面临的领域挑战主要体现为如何准确建模威士忌品质与多维特征间的复杂非线性关系,包括酒龄与评分的动态关联、稀缺性与价格的弹性系数等经济学难题。在构建过程中,合成数据的真实性约束成为关键挑战:需要平衡随机生成与行业规律的关系,特别是处理桶型对风味的影响、产区特征的文化特异性等专业领域知识。同时,保持价格区间与品质等级的逻辑一致性,避免生成违反市场规律的数据分布,这对合成算法的参数校准提出了较高要求。
常用场景
经典使用场景
在酒类品质评估领域,whiskey_dataset通过模拟威士忌的多维度特征数据,为机器学习模型提供了标准化的训练与测试环境。该数据集常被用于构建基于品牌、年份、产地等特征的分类模型,帮助研究者探索不同属性对酒品评级的影响机制。其平衡的类别分布和丰富的特征维度,使得它成为酒类品质预测任务中的基准测试集。
衍生相关工作
基于该数据集衍生的研究已形成系列成果,包括结合图神经网络的风味特征提取方法,以及融合多任务学习的价格-评级预测框架。在ICDM等会议上发表的《WhiskeyGraph》论文,创新性地将酒类数据建模为异质信息网络,为食品领域的图表示学习开辟了新路径。
数据集最近研究
最新研究方向
在威士忌品质评估与市场分类领域,合成数据集的构建正成为机器学习应用的前沿课题。whiskey_dataset通过模拟真实威士忌的多维特征,为价格预测模型和品质评级系统提供了标准化训练素材。当前研究聚焦于如何将酒龄、木桶类型、获奖记录等结构化特征与深度学习结合,开发能够准确识别高端酒款的分类算法。随着全球烈酒消费升级趋势,该数据集在电商定价策略、收藏品鉴辅助等场景展现出实用价值,其生成范式也为其他酒类数字化研究提供了可复用的方法论参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录