X-Wines

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/rogerioxavier/X-Wines

下载链接

链接失效反馈

官方服务：

资源简介：

X-Wines是一个包含100,646个葡萄酒实例和21,013,536个5星评级实例的葡萄酒数据集，用于推荐系统和机器学习，特别是在教育过程和科学实验中。数据集包括17个选定属性，涵盖了1至5的评分范围，涉及62个国家的葡萄酒。

X-Wines is a wine dataset comprising 100,646 wine instances and 21,013,536 five-star rating instances, designed for recommendation systems and machine learning, particularly in educational processes and scientific experiments. The dataset includes 17 selected attributes, covering a rating scale from 1 to 5, and involves wines from 62 countries.

创建时间：

2022-03-03

原始信息汇总

X-Wines Dataset 概述

数据集内容

酒实例：100,646个，包含17个选定属性。
评分实例：21,013,536个，基于1-5分制，包含日期和评分值。
用户：1,056,079个匿名用户。

数据集版本

测试版：100个酒实例，6个酒类型，17个酒产地，1,000个评分，636个用户，不支持多用户-酒评分。
精简版：1,007个酒实例，6个酒类型，31个酒产地，150,000个评分，10,561个用户，不支持多用户-酒评分。
完整版：100,646个酒实例，6个酒类型，62个酒产地，21,013,536个评分，1,056,079个用户，支持多用户-酒评分。

数据集用途

提供预处理、一致、开放的数据，适用于软件、教育过程和研究，特别是在推荐系统和机器学习中使用神经网络的科学实验。

下载与引用

下载：数据集可在Dataset/文件夹中下载。
引用：使用此数据集发表材料时，必须引用相关论文。

搜集汇总

数据集介绍

构建方式

X-Wines数据集的构建基于全球葡萄酒的广泛数据收集与预处理，涵盖了100,646种葡萄酒实例，包含17个精选属性，并附有21,013,536条用户评分。数据来源于2012年至2021年间用户在开放网络上的真实评价，涉及62个国家的葡萄酒。通过严格的预处理步骤，确保数据的一致性和可用性，为推荐系统和机器学习研究提供了高质量的数据基础。

使用方法

X-Wines数据集适用于推荐系统和机器学习领域的研究，尤其是基于神经网络的实验。用户可以通过GitHub页面下载数据集，并根据研究需求选择不同版本。数据集的评分和属性信息可用于构建和测试推荐算法，分析用户偏好与葡萄酒特征之间的关系。使用时需遵循引用政策，确保在相关研究中正确引用原始文献，以支持数据集的进一步开发和应用。

背景与挑战

背景概述

X-Wines数据集是由Rogério Xavier de Azambuja、A. Jorge Morais和Vítor Filipe等研究人员于2023年创建的，旨在为推荐系统和机器学习领域提供一个大规模、高质量的葡萄酒数据集。该数据集包含了100,646种葡萄酒的详细信息，涵盖了17个精选属性，并附有21,013,536条用户评分，评分范围为1至5星。X-Wines数据集的发布不仅填补了葡萄酒推荐系统领域的数据空白，还为教育过程和科学实验提供了宝贵的资源。通过该数据集，研究人员可以探索深度学习算法在推荐系统中的应用，进一步推动人工智能技术在葡萄酒领域的应用与发展。

当前挑战

X-Wines数据集在构建过程中面临了多个挑战。首先，数据收集和预处理是一个复杂的过程，尤其是在处理来自不同国家和地区的葡萄酒信息时，确保数据的准确性和一致性尤为重要。其次，处理2100多万条用户评分数据，如何有效地进行数据清洗和匿名化处理，以保护用户隐私，也是一个技术难题。此外，该数据集的应用场景主要集中在推荐系统和机器学习领域，如何设计高效的算法来利用这些数据进行模型训练和优化，是研究人员面临的主要挑战。最后，数据集的多样性和规模也带来了存储和计算资源的挑战，尤其是在处理大规模数据时，如何确保计算效率和模型性能的平衡，是亟待解决的问题。

常用场景

经典使用场景

在葡萄酒推荐系统和机器学习领域，X-Wines数据集的经典应用场景主要集中在构建和优化推荐算法。该数据集包含了超过10万种葡萄酒的详细信息以及2100万条用户评分，为研究者提供了丰富的数据基础。通过分析这些数据，研究者可以开发出基于用户偏好和历史评分的个性化推荐系统，从而提升用户体验和推荐准确性。此外，该数据集还可用于训练和验证各种机器学习模型，特别是在深度学习领域，探索如何利用神经网络进行更精准的葡萄酒推荐。

解决学术问题

X-Wines数据集解决了在葡萄酒推荐系统研究中数据稀缺的问题。传统的葡萄酒数据集通常规模较小，难以支持复杂的机器学习模型训练。X-Wines通过提供大规模、高质量的数据，使得研究者能够更深入地探索推荐算法的效果和性能。此外，该数据集还为研究者提供了跨时间、跨地域的用户评分数据，有助于分析用户偏好的变化趋势以及不同地区葡萄酒的受欢迎程度，从而推动推荐系统在实际应用中的进一步发展。

实际应用

在实际应用中，X-Wines数据集可广泛应用于葡萄酒电商平台的个性化推荐系统。通过分析用户的历史评分和行为，平台可以为用户推荐符合其口味的葡萄酒，提升用户满意度和购买转化率。此外，该数据集还可用于葡萄酒生产商的市场分析，帮助他们了解不同地区和用户群体对葡萄酒的偏好，从而优化产品设计和市场策略。在教育领域，X-Wines数据集也为学生和研究人员提供了一个实践平台，用于学习和验证推荐系统和机器学习算法。

数据集最近研究