Amazon2023_Books_5ReviewsProfile_ReviewGeneration_Main

Hugging Face2025-08-02 更新2025-08-03 收录

下载链接：

https://huggingface.co/datasets/baiyimeng/Amazon2023_Books_5ReviewsProfile_ReviewGeneration_Main

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用户ID，历史记录（包括asin、评分、评论文本、时间戳和标题），目标信息（包括asin、评分、评论文本、时间戳和标题），以及一个平均嵌入向量。数据集分为训练集、验证集和测试集，适用于推荐系统或文本分析任务。

创建时间：

2025-07-31

原始信息汇总

数据集概述

基本信息

数据集名称: Amazon2023_Books_5ReviewsProfile_ReviewGeneration_Main
下载大小: 1029535911字节
数据集大小: 1404230273字节

数据集结构

特征

user_id: 字符串类型，表示用户ID。
history: 列表类型，包含以下字段：
- asin: 字符串类型，表示商品ID。
- rating: 浮点数类型，表示评分。
- text: 字符串类型，表示评论文本。
- timestamp: 整数类型，表示时间戳。
- title: 字符串类型，表示商品标题。
target: 结构类型，包含以下字段：
- asin: 字符串类型，表示商品ID。
- rating: 浮点数类型，表示评分。
- text: 字符串类型，表示评论文本。
- timestamp: 整数类型，表示时间戳。
- title: 字符串类型，表示商品标题。
p_emb_avg: 序列类型，浮点数类型。

数据划分

train:
- 样本数量: 103472
- 数据大小: 1121883610字节
val:
- 样本数量: 12934
- 数据大小: 141241109字节
test:
- 样本数量: 12935
- 数据大小: 141105554字节

配置文件

默认配置:
- 训练集路径: data/train-*
- 验证集路径: data/val-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在电子商务研究领域，Amazon2023_Books_5ReviewsProfile_ReviewGeneration_Main数据集通过系统化采集亚马逊平台2023年度图书评论数据构建而成。该数据集采用多维度结构化处理方式，以用户历史评论序列为核心单元，每个数据样本包含用户ID、历史交互记录（包括图书ASIN码、评分、评论文本、时间戳及书名）以及目标评论项。数据经过严格清洗和匿名化处理，确保用户隐私保护的同时，通过p_emb_avg字段嵌入向量保留语义特征，最终形成包含10万余训练样本的三分划标准数据集。

使用方法

研究者可通过加载标准化的TFRecord格式文件快速构建深度学习管道，历史评论序列与目标评论的对应关系天然适配Transformer架构。建议采用序列建模方法处理历史字段，将p_emb_avg作为预训练特征输入，同时结合时间戳构建时序注意力机制。验证集和测试集的独立划分支持端到端的模型评估，特别适用于生成式评论合成、个性化推荐以及用户行为预测等研究方向。数据加载时需注意保持历史记录的时间序一致性，以充分发挥其时序建模价值。

背景与挑战

背景概述

Amazon2023_Books_5ReviewsProfile_ReviewGeneration_Main数据集由亚马逊公司于2023年发布，旨在推动用户评论生成领域的研究。该数据集聚焦于图书类目，通过整合用户历史评论数据与目标评论，为个性化评论生成任务提供了丰富的上下文信息。核心研究问题在于如何基于用户过往的评论行为和偏好，生成符合其表达风格且内容相关的产品评论。该数据集的出现填补了细粒度用户画像与评论生成相结合的空白，对自然语言处理领域的个性化文本生成研究具有重要价值。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题方面，个性化评论生成需要准确捕捉用户独特的语言风格和评价偏好，同时保证生成内容的连贯性和信息量，这对模型的上下文理解能力和生成质量提出了较高要求；构建过程方面，数据清洗和标注工作面临用户历史评论数据稀疏性、噪声干扰以及隐私保护等难题，如何平衡数据规模与质量是构建过程中的关键挑战。

常用场景

经典使用场景

在自然语言处理领域，Amazon2023_Books_5ReviewsProfile_ReviewGeneration_Main数据集被广泛应用于用户评论生成任务的研究。通过分析用户历史评论和目标评论的关联性，该数据集为生成模型提供了丰富的上下文信息，使得模型能够学习到用户的个性化表达风格和评价偏好。这一场景特别适合探索序列生成、个性化推荐和情感分析等前沿课题。

解决学术问题

该数据集有效解决了用户评论生成研究中数据稀疏性和上下文连贯性的关键问题。通过整合用户历史评论的完整画像，包括评分、时间戳和商品信息，研究者能够深入分析评论行为的时序特征和语义演变规律。这种多维度的数据支撑显著提升了生成评论的个性化和真实性，为对话系统和推荐算法的优化提供了重要基准。

实际应用

电商平台可借助该数据集构建智能评论辅助系统，自动生成符合用户特征的个性化商品评价。出版行业能够分析历史评论数据预测新书的市场反响，优化营销策略。教育机构则利用其开发写作教学工具，通过模仿真实用户的评论模式提升学生的表达多样性。

数据集最近研究