Product Title Summarization(PTS) Corpus

github2020-07-31 更新2024-05-31 收录

下载链接：

https://github.com/jp2006/ProductTitleSummarizationCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

每个corpus.txt文件的每一行包含一对标题（原始标题、简短标题）、品牌和商品名称。每行以制表符分隔，格式为：<原始标题> <简短标题> <品牌> <商品名称>。此外，数据集还包括一个更大的数据集big_corpus，其简短标题长度小于13。

Each line in the corpus.txt file contains a pair of titles (original title, short title), brand, and product name. Each line is separated by tabs, formatted as: <original title> <short title> <brand> <product name>. Additionally, the dataset includes a larger dataset named big_corpus, where the length of the short titles is less than 13.

创建时间：

2018-08-23

原始信息汇总

Product Title Summarization(PTS) Corpus

数据集描述

corpus.txt 包含每行一对标题（原始标题、简短标题）、品牌和商品名称，格式为制表符分隔。
每行格式为：<original title> <short title> <brand> <commodity name>

文件信息

corpus: 用于CIKM 2018论文的数据集，简短标题长度小于11个字符。
big_corpus: 更大的数据集，简短标题长度小于13个字符。
- 由于GitHub限制，该文件被分割为5个部分，前缀为big_corpus.tar.gz_。
- 重组文件的命令： bash cd big_corpus cat big_corpus.tar.gz_* > big_corpus.tar.gz tar zxvf big_corpus.tar.gz

注意事项

brand 字段可能包含多语言版本，使用“/”分隔，例如：Nintendo/任天堂。

搜集汇总

数据集介绍

构建方式

Product Title Summarization (PTS) Corpus 数据集的构建基于商品标题的自动摘要任务，旨在为多源指针网络模型提供训练和评估数据。数据集中的每一行包含原始标题、简短标题、品牌以及商品名称，格式为制表符分隔。原始数据来源于实际商品信息，经过人工或半自动处理生成对应的简短标题，确保简短标题长度分别控制在11和13个字符以内。数据集分为标准版和扩展版，扩展版通过文件分割和合并的方式提供更大规模的数据支持。

使用方法

使用 PTS Corpus 数据集时，用户可通过读取 `corpus.txt` 文件获取标准版数据，或通过合并 `big_corpus.tar.gz_*` 文件重建扩展版数据集。数据格式为制表符分隔，便于直接解析为结构化数据。用户可根据需求选择不同版本的数据集，用于训练或评估商品标题摘要模型。扩展版数据集的重建需通过命令行操作完成，具体步骤包括文件合并和解压缩。数据集适用于多源指针网络等自然语言处理模型的研究与开发。

背景与挑战

背景概述

Product Title Summarization (PTS) Corpus 数据集由Fei Sun等研究人员于2018年创建，旨在支持商品标题摘要生成的研究。该数据集首次发布于CIKM 2018会议，并作为论文《Multi-Source Pointer Network for Product Title Summarization》的核心数据支撑。数据集包含原始标题、简短标题、品牌信息以及商品名称，格式为制表符分隔。其核心研究问题在于如何从冗长的商品标题中提取关键信息，生成简洁且信息丰富的摘要，以提升电子商务平台的用户体验。该数据集在自然语言处理领域，尤其是文本摘要和电子商务应用场景中，具有重要的研究价值和应用潜力。

当前挑战

PTS Corpus 数据集在构建和应用过程中面临多重挑战。首先，商品标题的多样性和复杂性使得摘要生成任务极具挑战性，尤其是当标题包含多语言信息或品牌名称时，模型需要具备跨语言理解和信息提取的能力。其次，数据集的构建过程中，研究人员需要确保生成的简短标题既能保留原始标题的核心信息，又能符合长度限制，这对标注质量和算法设计提出了较高要求。此外，由于数据集规模较大，处理和管理数据时也面临存储和计算资源的挑战，尤其是在GitHub等平台上进行分发时，文件大小限制进一步增加了数据处理的复杂性。

常用场景

经典使用场景

Product Title Summarization (PTS) Corpus 数据集广泛应用于电子商务领域的文本摘要任务中。该数据集通过提供原始商品标题及其对应的简短标题，为研究人员和开发者提供了一个标准化的基准，用于训练和评估自动摘要生成模型。特别是在多语言环境下，该数据集能够有效支持跨语言的商品标题摘要生成，提升电商平台的用户体验。

解决学术问题

PTS Corpus 解决了商品标题自动摘要生成中的关键问题，如如何在保留核心信息的同时缩短标题长度，以及如何处理多语言标题的摘要生成。通过提供高质量的标注数据，该数据集为研究多源指针网络等先进模型提供了基础，推动了自然语言处理领域在文本摘要方向的研究进展。

实际应用

在实际应用中，PTS Corpus 被广泛应用于电商平台的商品推荐系统和搜索引擎优化中。通过生成简洁且信息丰富的商品标题，该数据集帮助平台提升用户的浏览效率和购买转化率。此外，其多语言支持特性也为全球化电商平台提供了重要的技术支持。

数据集最近研究