Amazon|电子商务数据集|用户评论分析数据集
收藏数据集概述
数据集用途
本数据集仓库包含用于推荐系统(RS)的公共数据源。所有这些推荐数据集都可以转换为RecBole定义的原子文件,这是一个统一、全面且高效推荐库。
数据集转换与使用
为了使用RecBole,需要将原始数据集转换为RecBole定义的数据格式。提供两种转换方式:
- 下载原始数据集并使用本仓库提供的转换工具进行处理。
- 直接下载处理后的原子文件。
数据集链接与简介
购物
- Amazon
- 包含2014年和2018年的产品评论和元数据,包括24个类别和142.8百万条评论。
- 2018年版本包含29个类别和233.1百万条评论。
- Amazon_M2
- 包含来自六个不同地区的匿名客户会话和产品数据。
- Alibaba-iFashion
- 从阿里巴巴在线购物系统收集的时尚搭配数据集。
- Epinions
- 从Epinions.com收集的包含用户信任关系的数据集。
- Yelp
- 包含Yelp网站的评论数据,有多个版本,包括2018、2020、2021和2022年的数据。
- Tmall
- 由Ant Financial Services提供,用于IJCAI16竞赛。
- DIGINETICA
- 包含从电子商务搜索引擎日志中提取的用户会话数据。
- YOOCHOOSE
- 为支持RecSys Challenge 2015而构建的数据集。
- Retailrocket
- 从真实电子商务网站收集的数据集。
- Ta Feng
- 包含2000年11月至2001年2月中国杂货店的交易数据。
广告
- Criteo
- 包含Criteo部分流量数据。
- Avazu
- 用于Avazu CTR预测竞赛的数据集。
- iPinYou
- 包含iPinYou全球RTB竞价算法竞赛的训练和测试数据集。
- AliEC
- 关于淘宝网站展示广告点击率预测的数据集。
签到
- Foursquare
- 包含纽约和东京约10个月的签到数据。
- Gowalla
- 包含2009年2月至2010年10月的签到数据。
电影
- MovieLens
- GroupLens研究收集并提供的电影网站评分数据集。
- Netflix
- 用于Netflix奖竞赛的官方数据集。
- Douban
- 包含豆瓣电影网站超过200万条短评论的数据集。
- Twitch
- 包含用户在Twitch上消费流媒体内容的数据集。
音乐
- Last.FM
- 包含2K用户在Last.fm在线音乐系统的社交网络、标签和艺术家收听信息。
- LFM-1b
- 包含超过10亿音乐收听事件的数据集。
- Yahoo Music
- 代表Yahoo!音乐社区对各种音乐艺术家的偏好。
- KGRec
- 包含用户、项目、隐式反馈交互、项目标签和文本描述的数据集。
- Music4All-Onion
- 扩展了Music4All数据集,包括26个额外的音频、视频和元数据特性。
书籍
- Book-Crossing
- 包含278,858用户提供的1,149,780条关于271,379本书的评级。
- GoodReads
- 包含Goodreads网站的评论和各种关于项目的属性。
游戏
- Steam
- 包含Steam的评论和游戏信息,包括7,793,069条评论,2,567,538用户和32,135款游戏。
动漫
- Anime
- 包含MyAnimeList.net用户对动漫的评级数据。
图片
- Pinterest
- 用于评估社交网络中基于内容的图像推荐的数据集。
笑话
- Jester
- 包含Jester笑话推荐系统的用户对笑话的匿名评级。
练习
- KDD2010
- 包含KDD Cup 2010教育数据挖掘挑战中的学生提交练习的情况。
- EndoMondo
- 包含EndoMondo用户的锻炼日志数据。
网站
- Phishing Websites
- 包含11,055个网站的30种特征和是否为钓鱼网站的标签。
- Behance
- 包含来自Behance社区的点赞和图像数据的小型匿名版本。
成人
- Adult
- 从1994年人口普查数据库中提取的数据集,包含人们的属性和他们是否年收入超过50k。
新闻
- MIND
- 为新闻推荐研究收集的大型数据集,包含约160k英文新闻文章和超过1500万条由100万用户生成的印象日志。
食品
- DianPing
- 包含从中国在线评论网站DianPing.com爬取的用户评论和详细业务元数据信息。
- Food
- 包含来自Food.com的烹饪食谱和评论文本。
饮料
- BeerAdvocate
- 包含啤酒评论和多个评分维度。
- RateBeer
- 包含啤酒评论和多个评分维度。
衣服
- ModCloth
- 包含ModCloth的服装合身度测量数据。
- RentTheRunway
- 包含RentTheRunway的服装合身度测量数据。
数据集信息统计
SN | Dataset | #User | #Item | #Interaction | Sparsity | Interaction Type | TimeStamp | User Context | Item Context | Interaction Context |
---|---|---|---|---|---|---|---|---|---|---|
1 | MovieLens | - | - | - | - | Rating | √ | √ | √ | |
2 | Anime | 73,515 | 11,200 | 7,813,737 | 99.05% | Rating | √ | |||
3 | Epinions | 116,260 | 41,269 | 188,478 | 99.99% | Rating | √ | √ | ||
4 | Yelp (5 versions) | - | - | - | - | Rating | √ | √ | √ | √ |
5 | Netflix | 480,189 | 17,770 | 100,480,507 | 98.82% | Rating | √ | |||
6 | Book-Crossing | 105,284 | 340,557 | 1,149,780 | 99.99% | Rating | √ | √ | ||
7 | Jester | 73,421 | 101 | 4,136,360 | 44.22% | Rating | ||||
8 | Douban | 738,701 | 28 | 2,125,056 | 89.73% | Rating | √ | √ | ||
9 | Yahoo Music | 1,948,882 | 98,211 | 11,557,943 | 99.99% | Rating | √ | |||
10 | KDD2010 | - | - | - | - | Rating | √ | |||
11 | Amazon (2014 & 2018) | - | - | - | - | Rating | √ | √ | ||
12 | 55,187 | 9,911 | 1,445,622 | 99.74% | - | |||||
13 | Gowalla | 107,092 | 1,280,969 | 6,442,892 | 99.99% | Check-in | √ | √ | ||
14 | Last.FM | 1,892 | 17,632 | 92,834 | 99.72% | Click | √ | |||
15 | DIGINETICA | 204,789 | 184,047 | 993,483 | 99.99% | Click | √ | √ | ||
16 | Steam | 2,567,538 | 32,135 | 7,793,069 | 99.99% | Buy | √ | √ | √ | |
17 | Ta Feng | 32,266 | 23,812 | 817,741 | 99.89% | Click | √ | √ | √ | √ |
18 | Foursquare | - | - | - | - | Check-in | √ | √ |

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录