WineSensed

arXiv2024-01-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2308.16900v4

下载链接

链接失效反馈

官方服务：

资源简介：

WineSensed是一个大型多模态葡萄酒数据集，用于研究视觉感知、语言和风味之间的关系。该数据集包含897k张葡萄酒标签图像和824k条来自Vivino平台的葡萄酒评论。它涵盖了超过350k种独特的葡萄酒，注释了年份、地区、评分、酒精百分比、价格和葡萄成分。通过进行葡萄酒品尝实验，对一部分数据进行了精细的风味注释，参与实验的256名参与者根据风味相似性对葡萄酒进行排名，产生了超过5k对风味距离。

WineSensed is a large-scale multimodal wine dataset designed to investigate the relationships between visual perception, language, and flavor. This dataset contains 897,000 wine label images and 824,000 wine reviews sourced from the Vivino platform. It covers over 350,000 unique wines, annotated with vintage, region, rating, alcohol percentage, price, and grape composition. Fine-grained flavor annotations were performed on a subset of this dataset via wine tasting experiments: 256 participants ranked wines based on flavor similarity, generating over 5,000 flavor distance pairs.

创建时间：

2023-09-01

搜集汇总

数据集介绍

构建方式

在食品科学与机器学习交叉领域，WineSensed数据集的构建融合了多模态数据采集策略。其核心通过大规模感官实验实现，采用“Napping”方法，邀请256名非专业品酒者依据风味相似性对108款葡萄酒进行排序，累计生成超过5000对风味距离标注。同时，从Vivino平台系统性地收集了897,000张酒标图像与824,000条用户评论，并结合年份、产区、评分等元数据，形成涵盖视觉、文本与感官标注的多维度资源。数据数字化过程利用计算机视觉技术自动处理品酒记录，确保标注的一致性与可扩展性。

特点

WineSensed的显著特征在于其深度融合了人类感官感知与多模态数据。数据集不仅包含大规模的酒标图像和用户生成内容，更通过精细的风味距离标注，捕捉了人类对葡萄酒风味的细微差异。这种标注超越了传统的分类或评分，以相对相似性的形式保留了风味的连续谱系。此外，数据集覆盖超过350,000款独特酒款，并附有产地、葡萄品种、酒精度等多维度属性，为研究风味与视觉、语言之间的复杂关联提供了丰富而结构化的基础。其多模态特性使得模型能够同时利用客观属性与主观感知，从而更全面地建模风味概念。

使用方法

该数据集适用于多模态机器学习任务，尤其在风味表示学习领域具有广泛用途。研究人员可利用其图像、文本和风味标注，训练模型学习风味与视觉、语言特征的联合嵌入空间。具体应用中，可通过预训练模型（如CLIP）提取图像与文本特征，并结合非度量多维标度（NMDS）处理的风味距离，使用典型相关分析（CCA）等方法对齐多模态表示。数据集支持粗粒度属性预测（如产区、酒精度分类）与细粒度风味相似性评估，例如通过三元组一致性比率衡量模型与人类感知的对齐程度。其结构便于开展跨模态检索、风味推荐及感官计算等前沿研究。

背景与挑战

背景概述

在跨模态学习蓬勃发展的背景下，WineSensed数据集于2023年由丹麦技术大学、哥本哈根大学、Vivino平台及加州理工学院的研究团队联合创建，旨在探索视觉感知、语言与风味之间的复杂关联。该数据集汇集了来自Vivino平台的89.7万张酒标图像与82.4万条品酒评论，覆盖超过35万款独特葡萄酒，并标注了年份、产区、评分、酒精度、价格及葡萄品种等多维度属性。其核心研究在于通过256名参与者的大规模感官实验，获取了超过5000对基于风味相似性排序的细粒度标注，从而构建了一个融合人类经验与机器学习内核的低维概念嵌入空间。这一创新不仅为风味建模提供了首个大规模多模态基准，更在食品科学与机器学习领域之间架起了桥梁，推动了以风味为模态的跨模态表征学习发展。

当前挑战

WineSensed数据集所针对的风味建模领域，其核心挑战在于量化人类主观且多维的感官体验，并建立其与视觉、语言等客观模态间的可靠映射。具体而言，首先，风味感知本身具有高度主观性与文化依赖性，如何从非专家标注中提取一致且可泛化的风味表征是一大难题。其次，在数据构建过程中，团队需克服大规模感官实验的组织复杂性，包括确保标注过程的标准化、减少参与者个体差异带来的噪声，以及将传统的'Napping'纸质标注方法高效数字化。此外，数据集的当前范围仍受限于以意大利红葡萄酒为主的样本，存在地理与文化偏差，未来需扩展至更广泛的酒类与饮食文化，以提升其普适性与代表性。

常用场景

经典使用场景

在食品科学与机器学习交叉领域，WineSensed数据集为研究视觉感知、语言描述与风味之间的复杂关联提供了关键资源。其经典使用场景在于构建多模态风味表示模型，通过整合酒标图像、用户评论及人工标注的风味相似性数据，探索如何将人类感官体验嵌入到计算框架中。该数据集支持开发如FEAST等算法，将CLIP等预训练模型的语义信息与人类感官注释对齐，从而在低维空间中捕捉风味的细微差异，为风味预测与分类任务奠定基础。

解决学术问题

WineSensed数据集解决了多模态学习中风味建模的长期挑战，填补了传统数据集中缺乏高粒度感官注释的空白。它通过大规模感官实验（如Napping方法）获取人类对风味的直接感知，使研究者能够量化主观味觉体验，并将其与视觉、文本模态关联。这一数据集促进了风味作为独立模态的引入，推动了多模态表示学习的发展，同时为食品科学中的风味分析、消费者偏好研究提供了数据基础，增强了模型对人类感官理解的可靠性。

衍生相关工作

WineSensed数据集衍生了一系列经典研究工作，其中最具代表性的是其提出的FEAST算法，该算法通过结合CLIP嵌入与人类感官注释，构建了对齐风味感知的多模态表示空间。相关研究扩展了多模态学习在食品领域的应用，例如基于风味相似性的跨模态检索、葡萄酒属性预测模型的优化，以及感官科学中大规模消费者研究的自动化方法。这些工作不仅验证了数据集的实用性，也为后续风味数据集（如扩展至其他饮品或食品类别）的开发提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集