five

Amazon|电子商务数据集|用户评论分析数据集

收藏
github2024-05-17 更新2024-05-31 收录
电子商务
用户评论分析
下载链接:
https://github.com/RUCAIBox/RecDatasets
下载链接
链接失效反馈
资源简介:
亚马逊评论数据包括评论(评分、文本、有用投票)和产品元数据(描述、类别信息、价格、品牌和图像功能),包括2014年版本和2018年更新版本。

The Amazon review dataset encompasses reviews (including ratings, text, and helpful votes) and product metadata (such as descriptions, category information, prices, brands, and image features). It includes versions from 2014 and an updated version from 2018.
创建时间:
2020-09-22
原始信息汇总

数据集概述

数据集用途

本数据集仓库包含用于推荐系统(RS)的公共数据源。所有这些推荐数据集都可以转换为RecBole定义的原子文件,这是一个统一、全面且高效推荐库。

数据集转换与使用

为了使用RecBole,需要将原始数据集转换为RecBole定义的数据格式。提供两种转换方式:

  1. 下载原始数据集并使用本仓库提供的转换工具进行处理。
  2. 直接下载处理后的原子文件。

数据集链接与简介

购物

  • Amazon
    • 包含2014年和2018年的产品评论和元数据,包括24个类别和142.8百万条评论。
    • 2018年版本包含29个类别和233.1百万条评论。
  • Amazon_M2
    • 包含来自六个不同地区的匿名客户会话和产品数据。
  • Alibaba-iFashion
    • 从阿里巴巴在线购物系统收集的时尚搭配数据集。
  • Epinions
    • 从Epinions.com收集的包含用户信任关系的数据集。
  • Yelp
    • 包含Yelp网站的评论数据,有多个版本,包括2018、2020、2021和2022年的数据。
  • Tmall
    • 由Ant Financial Services提供,用于IJCAI16竞赛。
  • DIGINETICA
    • 包含从电子商务搜索引擎日志中提取的用户会话数据。
  • YOOCHOOSE
    • 为支持RecSys Challenge 2015而构建的数据集。
  • Retailrocket
    • 从真实电子商务网站收集的数据集。
  • Ta Feng
    • 包含2000年11月至2001年2月中国杂货店的交易数据。

广告

  • Criteo
    • 包含Criteo部分流量数据。
  • Avazu
    • 用于Avazu CTR预测竞赛的数据集。
  • iPinYou
    • 包含iPinYou全球RTB竞价算法竞赛的训练和测试数据集。
  • AliEC
    • 关于淘宝网站展示广告点击率预测的数据集。

签到

  • Foursquare
    • 包含纽约和东京约10个月的签到数据。
  • Gowalla
    • 包含2009年2月至2010年10月的签到数据。

电影

  • MovieLens
    • GroupLens研究收集并提供的电影网站评分数据集。
  • Netflix
    • 用于Netflix奖竞赛的官方数据集。
  • Douban
    • 包含豆瓣电影网站超过200万条短评论的数据集。
  • Twitch
    • 包含用户在Twitch上消费流媒体内容的数据集。

音乐

  • Last.FM
    • 包含2K用户在Last.fm在线音乐系统的社交网络、标签和艺术家收听信息。
  • LFM-1b
    • 包含超过10亿音乐收听事件的数据集。
  • Yahoo Music
    • 代表Yahoo!音乐社区对各种音乐艺术家的偏好。
  • KGRec
    • 包含用户、项目、隐式反馈交互、项目标签和文本描述的数据集。
  • Music4All-Onion
    • 扩展了Music4All数据集,包括26个额外的音频、视频和元数据特性。

书籍

  • Book-Crossing
    • 包含278,858用户提供的1,149,780条关于271,379本书的评级。
  • GoodReads
    • 包含Goodreads网站的评论和各种关于项目的属性。

游戏

  • Steam
    • 包含Steam的评论和游戏信息,包括7,793,069条评论,2,567,538用户和32,135款游戏。

动漫

  • Anime
    • 包含MyAnimeList.net用户对动漫的评级数据。

图片

  • Pinterest
    • 用于评估社交网络中基于内容的图像推荐的数据集。

笑话

  • Jester
    • 包含Jester笑话推荐系统的用户对笑话的匿名评级。

练习

  • KDD2010
    • 包含KDD Cup 2010教育数据挖掘挑战中的学生提交练习的情况。
  • EndoMondo
    • 包含EndoMondo用户的锻炼日志数据。

网站

  • Phishing Websites
    • 包含11,055个网站的30种特征和是否为钓鱼网站的标签。
  • Behance
    • 包含来自Behance社区的点赞和图像数据的小型匿名版本。

成人

  • Adult
    • 从1994年人口普查数据库中提取的数据集,包含人们的属性和他们是否年收入超过50k。

新闻

  • MIND
    • 为新闻推荐研究收集的大型数据集,包含约160k英文新闻文章和超过1500万条由100万用户生成的印象日志。

食品

  • DianPing
    • 包含从中国在线评论网站DianPing.com爬取的用户评论和详细业务元数据信息。
  • Food
    • 包含来自Food.com的烹饪食谱和评论文本。

饮料

  • BeerAdvocate
    • 包含啤酒评论和多个评分维度。
  • RateBeer
    • 包含啤酒评论和多个评分维度。

衣服

  • ModCloth
    • 包含ModCloth的服装合身度测量数据。
  • RentTheRunway
    • 包含RentTheRunway的服装合身度测量数据。

数据集信息统计

SN Dataset #User #Item #Interaction Sparsity Interaction Type TimeStamp User Context Item Context Interaction Context
1 MovieLens - - - - Rating
2 Anime 73,515 11,200 7,813,737 99.05% Rating
3 Epinions 116,260 41,269 188,478 99.99% Rating
4 Yelp (5 versions) - - - - Rating
5 Netflix 480,189 17,770 100,480,507 98.82% Rating
6 Book-Crossing 105,284 340,557 1,149,780 99.99% Rating
7 Jester 73,421 101 4,136,360 44.22% Rating
8 Douban 738,701 28 2,125,056 89.73% Rating
9 Yahoo Music 1,948,882 98,211 11,557,943 99.99% Rating
10 KDD2010 - - - - Rating
11 Amazon (2014 & 2018) - - - - Rating
12 Pinterest 55,187 9,911 1,445,622 99.74% -
13 Gowalla 107,092 1,280,969 6,442,892 99.99% Check-in
14 Last.FM 1,892 17,632 92,834 99.72% Click
15 DIGINETICA 204,789 184,047 993,483 99.99% Click
16 Steam 2,567,538 32,135 7,793,069 99.99% Buy
17 Ta Feng 32,266 23,812 817,741 99.89% Click
18 Foursquare - - - - Check-in
AI搜集汇总
数据集介绍
main_image_url
构建方式
Amazon数据集的构建基于亚马逊平台上的用户评论和产品元数据,涵盖了多个版本,包括2014年、2018年和2023年。这些数据集包含了用户对产品的评分、评论文本、有用性投票等信息,以及产品的描述、类别、价格、品牌和图像特征等元数据。通过这些数据,研究者可以深入分析用户行为和产品特性,为推荐系统提供丰富的训练数据。
特点
Amazon数据集的特点在于其多样性和大规模性。数据集不仅包含了用户对产品的详细评分和评论,还提供了丰富的产品元数据,如类别、价格和品牌信息,这为多维度的推荐系统研究提供了可能。此外,数据集的时间跨度从1996年到2023年,涵盖了多个版本,使得研究者可以分析用户行为随时间的变化趋势。
使用方法
使用Amazon数据集时,首先需要将其转换为RecBole定义的原子文件格式,以便于在RecBole库中进行模型测试。转换可以通过两种方式进行:一是下载原始数据集并使用提供的转换工具进行处理;二是直接下载已经处理好的原子文件。转换完成后,用户可以在RecBole中加载数据集,测试不同推荐模型在该数据集上的性能。
背景与挑战
背景概述
亚马逊(Amazon)数据集是推荐系统领域的重要资源,由加州大学圣地亚哥分校的研究团队创建。该数据集包含了从1996年5月至2023年9月的亚马逊产品评论和元数据,涵盖了多个版本,包括2014年、2018年和2023年的更新版本。这些数据集不仅提供了用户对产品的评分和评论,还包括产品的详细描述、类别信息、价格、品牌和图像特征等。亚马逊数据集的核心研究问题是如何在海量用户和产品数据中有效进行个性化推荐,其对推荐系统领域的研究具有深远影响,尤其是在处理大规模数据和多维度信息方面。
当前挑战
亚马逊数据集在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,包含数亿条评论和数十个类别,如何高效处理和存储这些数据是一个技术难题。其次,数据的多维度特性,如评论文本、评分、产品元数据等,增加了模型设计的复杂性,要求推荐系统能够整合多种信息源。此外,随着时间的推移,用户行为和偏好不断变化,如何在动态环境中保持推荐系统的实时性和准确性也是一个重要挑战。最后,数据集的隐私和安全问题也不容忽视,尤其是在处理用户评论和个人信息时,如何确保数据的安全性和合规性是构建推荐系统时必须考虑的问题。
常用场景
经典使用场景
Amazon数据集在推荐系统领域中被广泛应用于用户行为分析和个性化推荐模型的训练。其丰富的用户评论和产品元数据,包括评分、文本评论、有用性投票等,为研究者提供了多维度的用户偏好信息。通过将这些数据转换为RecBole定义的原子文件格式,研究者可以轻松地在不同推荐模型上进行性能测试,从而优化推荐算法的效果。
衍生相关工作
基于Amazon数据集,研究者们开发了多种推荐算法和模型,如协同过滤、基于内容的推荐、以及混合推荐系统等。这些工作不仅在学术界引起了广泛关注,还在工业界得到了实际应用。例如,基于该数据集的研究成果已被应用于Amazon自身的推荐系统中,显著提升了用户体验和平台的销售额。此外,该数据集还激发了其他相关领域的研究,如用户行为分析、社交网络分析等。
数据集最近研究
最新研究方向
在推荐系统领域,Amazon数据集的最新研究方向主要集中在多模态数据的融合与深度学习模型的应用上。随着2023年最新版本的Amazon数据集发布,研究者们开始探索如何利用丰富的产品元数据(如描述、类别信息、价格、品牌等)以及用户评论中的多模态信息(如文本、图像等)来提升推荐系统的性能。此外,结合RecBole库的统一数据格式,研究者们能够更便捷地测试和比较不同推荐模型在Amazon数据集上的表现,尤其是在处理大规模数据和多语言场景下的推荐问题。这些研究不仅推动了推荐系统在电子商务中的应用,也为跨文化、跨语言的个性化推荐提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录