amazon-2023-all-category-k-core
收藏Hugging Face2024-12-03 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ChenglongMa/amazon-2023-all-category-k-core
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'Amazon Reviews 2023 All-Category k-Core',包含100万到10亿条评论,语言为英语,适用于推荐系统、评论分析和用户行为研究。数据集的许可证为GPL-3.0,但其他详细信息如数据集的来源、用途、结构、创建过程、标注、偏见、风险和局限性等均未提供。
This dataset, named 'Amazon Reviews 2023 All-Category k-Core', contains 1 million to 1 billion English-language reviews. It is applicable to recommendation systems, review analysis, and user behavior research. The dataset is licensed under GPL-3.0; however, no additional detailed information such as its source, intended uses, data structure, creation process, annotations, biases, risks, and limitations is provided.
创建时间:
2024-12-02
原始信息汇总
Amazon Reviews 2023 All-Category k-Core 数据集概述
数据集描述
- 语言: 英语
- 标签: 推荐系统, 评论, 用户行为
- 别名: Amazon Reviews 2023 All-Category k-Core
- 数据集大小: 100M<n<1B
- 许可证: GPL-3.0
数据集结构
- 更多信息: [More Information Needed]
数据集创建
- 更多信息: [More Information Needed]
偏见、风险和局限性
- 更多信息: [More Information Needed]
推荐
- 用户应了解数据集的风险、偏见和技术局限性。
搜集汇总
数据集介绍

构建方式
该数据集源自2023年McAuley实验室收集的亚马逊评论数据集,经过精心筛选与处理,形成了包含所有类别且每个用户与商品至少有k次交互的子集。具体构建过程包括:首先,整合了亚马逊评论数据集中所有类别的评分数据;其次,筛选出交互次数少于k(k值范围为5至20)的评分;最后,剔除与这些评分无关的商品元数据和评论,并将最终数据保存为.parquet格式,以确保数据的高效存储与处理。
特点
该数据集的显著特点在于其广泛覆盖了亚马逊平台上的所有商品类别,并且通过k-core筛选机制,确保了数据的密集性和高质量。此外,数据集采用.parquet格式存储,不仅提升了数据读取速度,还优化了存储空间。每个类别的数据被细分为评分、元数据和评论,便于进行多维度的分析与应用。
使用方法
该数据集适用于多种自然语言处理任务,如推荐系统、情感分析等。用户可以通过加载.parquet格式的数据文件,利用其中的评分、元数据和评论信息进行模型训练与验证。数据集的结构化存储方式使得数据处理更加便捷,用户可以根据需求选择特定的类别或交互次数进行深入分析。
背景与挑战
背景概述
亚马逊评论数据集(Amazon Reviews Dataset)自1996年5月至2023年9月期间收集,涵盖了广泛的电子商务评论数据。2023年,McAuley实验室对该数据集进行了进一步处理,生成了名为‘Amazon Reviews 2023 All-Category k-Core’的子集。该数据集包含了所有类别中至少有k(k∈[5,20])次交互的评论,旨在为推荐系统、情感分析等自然语言处理任务提供高质量的数据支持。通过将原始数据集中的评论按25个类别进行分组,并筛选出满足k-core条件的交互数据,该数据集为研究用户行为、商品推荐等领域提供了丰富的资源。
当前挑战
构建‘Amazon Reviews 2023 All-Category k-Core’数据集面临的主要挑战包括:首先,从原始数据集中筛选出满足k-core条件的交互数据,确保每个用户和商品在所有类别中至少有k次交互,这一过程需要高效的数据处理和筛选算法。其次,由于数据集涵盖了25个类别,且每个类别的数据量和结构各异,如何确保数据的一致性和完整性是一个复杂的问题。此外,将筛选后的数据存储为高效的.parquet格式,以便于后续的分析和应用,也是构建过程中需要解决的技术难题。
常用场景
经典使用场景
在电子商务领域,Amazon Reviews 2023 All-Category k-Core数据集被广泛应用于推荐系统、情感分析以及用户行为研究。该数据集通过筛选出具有至少k次交互的用户和商品,确保了数据的稠密性和高质量,从而为推荐算法提供了可靠的基础。研究者可以利用该数据集构建个性化推荐模型,分析用户对不同商品的偏好,并进一步优化推荐策略。
实际应用
在实际应用中,Amazon Reviews 2023 All-Category k-Core数据集被广泛应用于电子商务平台的个性化推荐系统中。通过分析用户的历史交互数据,平台可以为用户提供更加精准的商品推荐,提升用户体验和购买转化率。此外,该数据集还可用于商品评论的情感分析,帮助商家了解用户对商品的真实反馈,从而改进产品和服务质量。
衍生相关工作
基于Amazon Reviews 2023 All-Category k-Core数据集,研究者们开展了多项经典工作。例如,有学者利用该数据集提出了基于图神经网络的多类别推荐算法,显著提升了推荐系统的性能。此外,该数据集还被用于情感分析模型的训练,推动了情感分析技术在电子商务领域的应用。这些衍生工作不仅丰富了数据集的应用场景,也为相关领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



