McAuley-Lab/Amazon-Reviews-2023|电子商务数据集|数据分析数据集
收藏Amazon Reviews 2023 数据集概述
数据集基本信息
- 名称: Amazon Reviews 2023
- 语言: 英语
- 标签: 推荐, 评论
- 大小: 10B<n<100B
数据集描述
- 收集时间: 2023年
- 收集者: McAuley Lab (UCSD)
- 包含内容:
- 用户评论: 评分, 文本, 有用投票等;
- 商品元数据: 描述, 价格, 原始图像等;
- 链接: 用户-商品 / 一起购买图。
数据集更新
- 数据量增加: 收集了571.54M评论, 比上一版本大245.2%;
- 交互时间范围: 从1996年5月到2023年9月;
- 元数据丰富: 商品元数据中包含更多描述性特征;
- 时间戳细化: 交互时间戳达到秒级或更细;
- 处理更干净: 商品元数据比之前版本更干净;
- 标准分割: 标准数据分割以促进推荐系统基准测试。
数据集统计
-
总体统计:
年份 评论数 用户数 商品数 R_Token M_Token 领域数 时间范围 2023 571.54M 54.51M 48.19M 30.14B 30.78B 33 1996-05至2023-09 -
按类别统计:
数据集字段
-
用户评论字段:
字段 类型 说明 rating float 产品评分(1.0至5.0) title str 用户评论标题 text str 用户评论文本 ... ... ... -
商品元数据字段:
字段 类型 说明 main_category str 商品主类别 title str 商品名称 ... ... ...
联系方式
- 报告错误: 通过GitHub提交问题。
- 其他: 通过电子邮件 yphou AT ucsd.edu 联系。

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录