eC-Tab2Text
收藏arXiv2025-02-21 更新2025-02-22 收录
下载链接:
https://ec-tab2text.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
eC-Tab2Text是一个针对电子商务领域设计的表格到文本生成数据集,由乌拉圭工程与科技大学和阿尔伯塔大学共同创建。该数据集包含丰富的产品属性表格和用户特定查询,旨在支持方面基础上的文本生成。数据集通过从Pricebaba网站抓取移动手机的产品评论和规格构建而成,经过严格的数据清洗和整合,形成了包含1452个表格和3354个查询的 comprehensive resource。该数据集支持针对用户查询的特定训练和评估,以实现精确和上下文相关的文本生成,适用于电子商务应用中的产品评论生成等任务。
eC-Tab2Text is a table-to-text generation dataset tailored for the e-commerce domain, jointly created by the University of Engineering and Technology Uruguay and the University of Alberta. It encompasses a wealth of product attribute tables and user-specific queries, with the core objective of supporting aspect-based text generation. Constructed by scraping mobile phone product reviews and specifications from the Pricebaba website, the dataset has undergone rigorous data cleaning and integration, resulting in a comprehensive resource containing 1452 tables and 3354 queries. This dataset supports targeted training and evaluation based on user queries, enabling accurate and contextually relevant text generation, and is applicable to tasks such as product review generation in e-commerce applications.
提供机构:
乌拉圭工程与科技大学,阿尔伯塔大学
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
eC-Tab2Text数据集的构建主要依托于电子商务领域中的产品表格数据。研究者从Pricebaba网站上提取了手机产品的详细规格和用户评价,这些数据被整理并存储为JSON格式。数据清洗和标准化过程包括将文本转换为小写、替换特殊字符以及规范化键值对等,以确保数据的一致性和可用性。通过整合产品规格和用户评价,eC-Tab2Text数据集为每个产品创建了完整的记录,为后续应用提供了丰富的资源。
特点
eC-Tab2Text数据集的特点在于其针对电子商务领域的深度和广度。数据集包含了丰富的属性信息,平均每个表格包含59.8个属性-值对,最多可达68个。此外,数据集还包括3,354个查询,平均每个表格2.31个查询,每个查询的输出平均包含56.61个词。这种设计支持针对用户查询的精确和上下文相关的文本生成,是电子商务领域文本生成的宝贵资源。
使用方法
eC-Tab2Text数据集的使用主要针对基于用户查询的表格到文本生成任务。研究者对多个开源的大型语言模型(LLMs)进行了微调,包括LLaMA 2-Chat 7B、Mistral 7B-Instruct和StructLM 7B。微调过程遵循最佳实践,包括指令微调和领域特定数据集对齐。通过对超参数的优化,确保了计算效率的同时保持了高性能。微调后的模型在标准表格到文本指标以及正确性、忠实度和流畅度评估中均表现出显著提升。
背景与挑战
背景概述
随着电子商务的蓬勃发展,用户对商品信息的获取与理解需求日益增长,而商品信息通常以表格形式呈现。为了满足这一需求,研究人员需要构建能够从表格数据中生成自然语言文本的模型。然而,现有的表格到文本生成数据集大多面向通用应用,缺乏特定领域所需的深度。为了填补这一空白,Luis Antonio Gutiérrez Guanilo、Mir Tafseer Nayeem、Cristian López和Davood Rafiei等学者于2025年提出了eC-Tab2Text数据集,旨在为电子商务领域提供特定领域的数据集,以支持从产品表格生成高质量的、属性特定的产品评论。该数据集包含丰富的产品属性和用户特定的查询,为大型语言模型(LLMs)提供了训练和评估的平台,以实现电子商务工作流程的优化。eC-Tab2Text数据集的引入,为LLMs在电子商务工作流程中的应用提供了新的可能性,并突出了领域特定数据集在解决行业特定挑战中的关键作用。
当前挑战
eC-Tab2Text数据集面临的主要挑战包括:1)生成文本的连贯性、上下文相关性和用户特定需求的准确性;2)处理电子商务领域中的多样属性(如电池寿命、显示质量)、跨属性推理(如电池寿命和显示尺寸之间的关系)以及适应不同的用户意图(如撰写有针对性的产品评论);3)现有的表格到文本生成数据集缺乏对特定领域(如产品评论)的深度,难以满足电子商务文本生成的需求。此外,虽然大型语言模型在通用文本生成方面表现出色,但在处理产品特定领域的复杂性时,这些模型往往难以胜任。因此,需要构建能够捕捉属性特定文本生成所需的细微要求的定制数据集。
常用场景
经典使用场景
eC-Tab2Text数据集主要应用于电子商务领域,特别是针对产品表格的文本生成任务。该数据集提供了丰富的产品属性和用户特定查询,使得大型语言模型能够从结构化的表格数据中生成高质量、属性特定的产品评论。这一场景的经典使用案例包括为用户生成个性化的产品描述、针对特定用户查询的产品评论、以及根据产品属性生成详细的产品分析报告。此外,该数据集还可用于构建智能客服系统,通过分析用户查询和产品表格,为用户提供准确的产品推荐和解答。
解决学术问题
eC-Tab2Text数据集解决了电子商务领域中,大型语言模型在处理产品表格数据时的局限性。现有数据集往往缺乏特定领域的深度,无法满足电子商务中复杂的属性推理和用户查询的需求。eC-Tab2Text数据集通过提供属性丰富的产品表格和用户特定查询,为电子商务文本生成任务提供了更为精准和细粒度的数据支持。同时,该数据集还促进了领域特定数据集和微调方法在优化电子商务工作流程中的重要作用。此外,eC-Tab2Text数据集还推动了数值推理和定性文本生成能力的提升,为评估和改进模型在现实世界应用中的推理能力提供了基准。
衍生相关工作
eC-Tab2Text数据集衍生了一系列相关的经典工作。例如,一些研究利用eC-Tab2Text数据集评估了不同大型语言模型在电子商务文本生成任务中的性能,并发现了一些模型的优缺点。此外,还有一些研究利用eC-Tab2Text数据集开发了新的文本生成方法和模型,如基于深度学习和注意力机制的文本生成模型,以提高生成文本的质量和准确性。此外,还有一些研究利用eC-Tab2Text数据集进行了跨领域的研究,如将电子商务文本生成技术应用于医疗、金融等领域,以解决这些领域中的文本生成问题。
以上内容由遇见数据集搜集并总结生成



