Wayfair Aspect-Guided Review Summarization Dataset
收藏arXiv2025-09-30 更新2025-10-02 收录
下载链接:
https://huggingface.co/collections/IeBoytsov/review-summaries-68dab02e7b6a5bc8e29e81fa
下载链接
链接失效反馈官方服务:
资源简介:
Wayfair Aspect-Guided Review Summarization 数据集包含92,000种产品的1,180万条匿名客户评论,其中包括提取的方面和生成的产品摘要。数据集涵盖了1000个最常见的产品类别,每个产品包含100到300条评论,平均评论长度为124个字符,平均每个产品有129条评论。该数据集对于在真实世界场景中训练和评估摘要模型特别有价值。
The Wayfair Aspect-Guided Review Summarization Dataset contains 11.8 million anonymous customer reviews for 92,000 products, including extracted aspects and generated product summaries. The dataset covers the 1000 most common product categories, with each product having 100 to 300 reviews. The average length of a single review is 124 characters, and the average number of reviews per product is 129. This dataset is particularly valuable for training and evaluating summarization models in real-world scenarios.
提供机构:
Wayfair
创建时间:
2025-09-30
搜集汇总
数据集介绍

构建方式
在电子商务领域,面对海量用户评论带来的信息过载挑战,Wayfair Aspect-Guided Review Summarization Dataset采用模块化流水线构建方法。首先通过大型语言模型从单个评论中提取细粒度的方面-情感对,随后通过频率统计与语义映射将原始方面合并为规范化概念。基于出现频率筛选每个产品的前五大核心方面,并采用加权抽样策略选取代表性评论作为输入,最终通过结构化提示模板生成基于真实用户反馈的摘要文本。
特点
该数据集在评论摘要研究领域具有显著特征优势,其覆盖92,000个商品类别与1,180万条匿名评论的庞大规模,确保了数据分布的广泛代表性。通过方面合并技术将原始178,054个细粒度方面精简至19,014个规范概念,极大提升了语义一致性。每个商品均配备生产级质量摘要,且标注了方面情感分布,为模型训练提供了精准的监督信号。数据集中评论平均长度124字符,商品平均129条评论的密度设计,有效平衡了信息丰富度与处理效率。
使用方法
该数据集适用于电子商务场景下的多维度研究应用。研究人员可基于标注的方面-情感对开发细粒度情感分析模型,或利用配对评论与摘要训练可控文本生成系统。数据集支持端到端摘要流水线评估,通过对比生成摘要与人工标注的误差分类,可系统分析模型在事实一致性方面的表现。针对新产品冷启动问题,可借鉴其基于评论数量的动态更新机制,构建自适应摘要系统。此外,数据集中规范化的方面体系为跨领域迁移学习提供了标准化语义基础。
背景与挑战
背景概述
在电子商务平台蓬勃发展的背景下,Wayfair于2025年发布了面向细粒度属性引导的评论摘要数据集。该数据集由Ilya Boytsov等研究人员构建,聚焦于解决海量用户评论中信息过载与重复性问题。通过结合属性情感分析与大语言模型技术,该研究实现了从1,180万条匿名评论中自动提炼产品核心特征与情感倾向,为消费者提供结构化决策支持。该成果通过在线A/B测试验证了其在提升用户购物转化率方面的实际价值,推动了电子商务场景下自然语言生成技术的工业化应用。
当前挑战
该数据集主要应对属性引导评论摘要任务中的语义一致性挑战:首先需精准识别用户评论中碎片化的产品属性表述,同时解决自然语言表述多样性导致的属性归一化难题。在构建过程中,研究人员面临属性-情感对提取的粒度控制、高频属性筛选的覆盖率平衡、以及长文本上下文建模的幻觉抑制等工程挑战。此外,保持生成摘要与原始评论的情感一致性,同时避免关键信息遗漏或扭曲,构成了系统优化的核心难点。
常用场景
经典使用场景
在电子商务领域,Wayfair数据集通过整合产品评论中的方面-情感对,构建结构化提示来指导大语言模型生成精炼的产品摘要。该数据集广泛应用于多评论摘要任务,帮助模型聚焦于高频产品属性,如质量、外观、舒适度等,确保摘要内容既全面又具代表性。
解决学术问题
该数据集有效解决了评论摘要中的幻觉问题和事实不一致性,通过方面引导机制提升摘要的准确性与可控性。其标注数据支持方面情感分析与摘要生成的联合研究,为处理长文本上下文和噪声数据提供了可靠基准,推动了可解释摘要模型的发展。
衍生相关工作
基于该数据集,研究者开发了模块化的方面引导摘要流水线,结合了深度学习方法与提示工程策略。相关工作扩展了方面情感分析在生成任务中的应用,例如结合语义选择与抽象摘要的混合框架,以及针对长上下文优化的采样技术,推动了领域自适应与多语言摘要的研究。
以上内容由遇见数据集搜集并总结生成



