eren23/Amazon-Reviews-2023-amazon_fashion-grouped-100-sub-tagged

Name: eren23/Amazon-Reviews-2023-amazon_fashion-grouped-100-sub-tagged
Creator: eren23
Published: 2024-03-20 19:31:57
License: 暂无描述

Hugging Face2024-03-20 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/eren23/Amazon-Reviews-2023-amazon_fashion-grouped-100-sub-tagged

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: asin dtype: string - name: title dtype: string - name: text dtype: string - name: review_count dtype: int64 - name: combined_reviews dtype: string - name: summary_reviews dtype: string - name: tags sequence: string splits: - name: train num_bytes: 911245 num_examples: 100 download_size: 498687 dataset_size: 911245 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征字段： - 字段名：asin（Amazon Standard Identification Number，亚马逊标准识别码），数据类型：字符串 - 字段名：title，数据类型：字符串 - 字段名：text，数据类型：字符串 - 字段名：review_count，数据类型：64位整型 - 字段名：combined_reviews，数据类型：字符串 - 字段名：summary_reviews，数据类型：字符串 - 字段名：tags，数据类型：字符串序列拆分集： - 拆分名称：训练集，字节占用量：911245，样本数量：100 下载大小：498687 数据集总大小：911245 配置项： - 配置名称：默认配置，数据文件： - 拆分集：训练集，路径：data/train-*

提供机构：

eren23

原始信息汇总

数据集概述

数据集特征

asin: 数据类型为字符串。
title: 数据类型为字符串。
text: 数据类型为字符串。
review_count: 数据类型为整数。
combined_reviews: 数据类型为字符串。
summary_reviews: 数据类型为字符串。
tags: 数据类型为序列字符串。

数据集分割

train: 训练集，包含100个示例，总大小为911245字节。

数据集大小

下载大小: 498687字节。
数据集总大小: 911245字节。

搜集汇总

数据集介绍

构建方式

在电子商务蓬勃发展的背景下，该数据集聚焦于亚马逊时尚品类，通过精心筛选与整合构建而成。其构建过程首先从海量用户评论中，依据特定标准选取了100个具有代表性的商品单元（ASIN）。随后，针对每个商品，将多条原始评论文本进行聚合，生成了统一的综合评论文本，并进一步提炼出摘要性总结。这一过程不仅保留了原始数据的丰富细节，还通过结构化处理增强了数据的可用性，为深入分析产品口碑与用户反馈提供了高质量的基础语料。

特点

本数据集的核心特点在于其高度的结构化和信息集成性。每个数据样本均以商品ASIN为核心标识，囊括了商品标题、原始评论文本、评论数量、聚合后的综合评论、总结性评论以及一系列标签。其中，综合评论字段将分散的评论内容融合为连贯文本，而总结性评论则提炼了核心观点，这为情感分析、主题建模等任务提供了不同粒度的分析视角。标签序列的引入进一步丰富了数据的语义维度，使得研究者能够从多角度对商品属性和用户评价进行解构与探索。

使用方法

该数据集适用于自然语言处理与电子商务研究的多个领域。研究者可直接加载数据集，利用其结构化的字段进行下游任务开发。例如，基于`combined_reviews`或`summary_reviews`字段进行文本情感分类或评分预测；利用`tags`字段进行多标签分类或商品属性挖掘；亦或结合`title`与`text`分析评论与商品描述的关联性。其适中的数据规模（100个样本）尤其适合作为算法验证、原型开发或教学演示的基准数据集，为模型训练与评估提供了便捷的起点。

背景与挑战

背景概述

在电子商务与自然语言处理交叉领域，产品评论分析一直是推动个性化推荐与情感分析技术发展的关键驱动力。eren23/Amazon-Reviews-2023-amazon_fashion-grouped-100-sub-tagged数据集于2023年由独立研究者或团队构建，聚焦于亚马逊时尚品类，旨在通过聚合与标注用户评论，深入探索评论摘要生成、多标签分类及消费者行为建模等核心问题。该数据集以精炼的规模呈现，为学术界与工业界提供了研究评论语义浓缩、标签体系构建及细粒度情感挖掘的宝贵资源，对提升电商平台内容理解与用户体验具有显著影响力。

当前挑战

该数据集致力于解决时尚电商领域评论信息过载与语义提炼的挑战，具体包括从海量异构评论中自动生成连贯摘要、准确分配多维度标签以刻画产品特征与用户情感，以及应对语言表达的多样性与主观性。在构建过程中，挑战主要源于数据清洗与整合的复杂性，例如处理原始评论中的噪声、重复内容及非结构化文本，同时确保分组与标注过程的一致性与可扩展性，这些因素共同制约了数据质量与后续模型应用的鲁棒性。

常用场景

经典使用场景

在电子商务与自然语言处理交叉领域，eren23/Amazon-Reviews-2023-amazon_fashion-grouped-100-sub-tagged数据集为文本摘要与情感分析任务提供了经典范例。该数据集聚焦于亚马逊时尚品类，通过聚合用户评论并生成摘要，为研究者构建了一个结构化的多维度文本语料库。其核心价值在于将原始评论按商品分组，并附加人工标注的标签序列，使得模型训练能够直接面向商品级别的语义归纳，而非孤立评论文本。这一设计显著提升了数据在摘要生成任务中的实用性与针对性，成为评估自动摘要模型在电商场景下性能的基准资源。

衍生相关工作

围绕此类结构化电商评论数据，学术界已衍生出一系列经典研究工作。早期研究侧重于利用序列到序列模型生成评论摘要，并探索注意力机制在捕捉关键意见上的作用。随后，工作逐渐转向多任务学习框架，尝试联合优化摘要生成与标签预测，以提升模型对评论语义的深层理解。近期，随着大语言模型的兴起，部分研究开始探索如何利用此类数据对通用模型进行指令微调，使其具备专业领域的评论总结与洞察能力。这些工作不断拓展着电商文本挖掘的边界，并反哺推动了数据标注与构建方法的持续优化。

数据集最近研究