Amazon Reviews 2023|电商评论数据集|消费者行为分析数据集
收藏RevStream-InsightFlow 数据集概述
数据集信息
数据来源
- 数据集名称: Amazon Reviews 2023
- 数据集链接: Amazon Reviews 2023
数据内容
- 用户评论: 包括评分、评论文本、有用投票等。
- 商品元数据: 包括产品描述、定价、图片等。
数据集特点
- 数据规模: 包含 571.54M 条评论,比之前版本大 245.2%。
- 元数据丰富: 包含详细的商品特征描述。
- 时间戳精细: 交互时间戳精确到秒或更细。
技术栈
- 数据存储: Google Cloud Storage (GCS)
- 数据处理: Dataproc
- 数据转换: Data Build Tool (DBT)
- 数据仓库: BigQuery
- 工作流编排: Cloud Composer
- 编程语言: Python
- 基础设施即代码: Terraform
- 数据可视化: Google Data Studio
- CI/CD: Cloud Build, Cloud Run
数据管道概览
- 数据加载: 使用 Huggingface 的
datasets
库加载 Amazon Reviews 数据集。 - 数据处理: 使用 GCP 的 Dataproc 和 BigQuery 进行数据清洗和转换。
- 数据分析: 使用 DBT 和 BigQuery 进行探索性数据分析(EDA)以识别趋势和洞察。
- 数据可视化: 使用 Google Data Studio 创建交互式仪表板以可视化洞察。
- 工作流编排: 使用 Cloud Composer 编排数据管道的各个步骤。
- CI/CD: 使用 Docker 化 DBT 作业并通过 Cloud Build 和 Cloud Run 进行部署。
前置条件
- 操作系统: 首选 Linux
- 工具: Python, Terraform, Git
- GCP 资源: GCP 项目、服务账户和 GCloud CLI
仪表板
- 客户情感分析: 评论中正面、中性、负面情感的可视化表示。
- 产品性能洞察: 平均评分、最多评论产品等关键指标。
- 用户参与模式: 用户交互趋势、评论频率等。
结论
RevStream InsightFlow 提供了一种可扩展且高效的方式来分析 Amazon 评论并获得可操作的洞察。该项目可以扩展包括情感分析、趋势分析和客户细分等额外功能。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录