Dakhoo/L2T-NeurIPS-2023
收藏Hugging Face2023-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Dakhoo/L2T-NeurIPS-2023
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了来自Vivino平台的897k张葡萄酒标签图片和824k条葡萄酒评论。它涵盖了超过350k个独特的葡萄酒年份,并标注了年份、地区、评分、酒精含量、价格和葡萄成分。通过对256名参与者进行的葡萄酒品尝实验,获得了细粒度的风味注释,生成了超过5k对风味距离。
提供机构:
Dakhoo
原始信息汇总
数据集卡片:WineSensed
数据集描述
数据集概要
- 包含897k张葡萄酒标签图像和824k条葡萄酒评论,来自Vivino平台。
- 包含超过350k个独特的葡萄酒年份,标注了年份、地区、评分、酒精百分比、价格和葡萄成分。
- 通过256名参与者的葡萄酒品尝实验,对部分数据进行了细粒度的风味标注,产生了超过5k对风味距离。
数据集结构
数据字段
- metadata.zip:包含以下文件:
- participants.csv:包含参与者与实验中标注信息的连接。
- images_reviews_attributes.csv:包含评论、图像链接和葡萄酒属性。
- napping.csv:包含每个葡萄酒在napping纸上的坐标,以及与标注葡萄酒和参与者的连接信息。
- chunk_<chunk num>.zip:包含数据集中葡萄酒图像的.jpg格式文件。
napping.csv包含的字段:
- session_round_name:事件期间会话编号,每个事件最多三个会话(映射到participants.csv中的experiment_round)。
- event_name:数据收集事件的名称(映射到participants.csv中的相同属性)。
- experiment_no:napping纸在返回的纸张列表中的编号(映射到participants.csv中的experiment_no)。
- experiment_id:实验中标注葡萄酒的ID。
- coor1:napping纸上的x轴坐标。
- coor2:napping纸上的y轴坐标。
- color:使用的贴纸颜色。
participants.csv包含的字段:
- session_round_name:事件期间会话编号,每个事件最多三个会话(映射到napping.csv中的experiment_round)。
- event_name:数据收集事件的名称(映射到napping.csv中的event_name)。
- experiment_no:napping纸在返回的纸张列表中的编号(映射到napping.csv中的experiment_no)。
- round_id:轮次编号(1-3)。
- participant_id:实验中给参与者的ID。
images_reviews_attributes.csv包含的字段:
- vintage_id:葡萄酒的年份ID。
- image:图像链接(每个.jpg文件可以通过从链接中删除/p前缀映射到此列)。
- review:用户对葡萄酒的评论。
- experiment_id:数据收集期间葡萄酒获得的ID(每个experiment_id可以映射到napping.csv中的相同列)。
- year:葡萄酒生产的年份。
- winery_id:生产葡萄酒的酒庄ID。
- wine:葡萄酒的名称。
- alcohol:葡萄酒的酒精百分比。
- country:葡萄酒生产的国。
- region:葡萄酒生产的地区。
- price:葡萄酒的价格(2023年5月收集)。
- rating:葡萄酒的平均评分(2023年5月收集)。
- grape:葡萄酒的葡萄成分,以每种葡萄品种对总体混合的百分比贡献按降序排列的逗号分隔列表表示。
附加信息
许可信息
- WineSensed由Thoranna Bender等人开发,基于CC BY-NC-ND 4.0许可证。
引用信息
@article{bender2023learning, title={Learning to Taste: A Multimodal Wine Dataset}, author={Bender, Thoranna and S{o}rensen, Simon M{o}e and Kashani, Alireza and Hjorleifsson, K Eldjarn and Hyldig, Grethe and Hauberg, S{o}ren and Belongie, Serge and Warburg, Frederik}, journal={arXiv preprint arXiv:2308.16900}, year={2023} }
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个多模态葡萄酒数据集,包含来自Vivino平台的897k张葡萄酒标签图像和824k条评论,覆盖超过350k个独特年份,并标注了年份、产区、评分等属性。通过品酒实验获得细粒度风味注释,包括256名参与者生成的5k+对风味距离,适用于葡萄酒分析和机器学习研究。
以上内容由遇见数据集搜集并总结生成



