Product Title Summarization(PTS) Corpus
收藏github2024-01-19 更新2024-05-31 收录
下载链接:
https://github.com/FeiSun/ProductTitleSummarizationCorpus
下载链接
链接失效反馈官方服务:
资源简介:
每个corpus.txt文件中的每一行包含一对标题(原始标题和简短标题)、品牌和商品名称。每行是制表符分隔的(两个制表符),格式如下:<原始标题> <简短标题> <品牌> <商品名称>。此外,数据集还包括一个更大的数据集big_corpus,其简短标题长度小于13,并被分割成多个文件以满足GitHub的文件大小限制。
Each line in the corpus.txt file contains a pair of titles (original title and short title), brand, and product name. Each line is tab-separated (two tabs), formatted as follows: <original title> <short title> <brand> <product name>. Additionally, the dataset includes a larger dataset, big_corpus, where the short titles are less than 13 characters in length and are split into multiple files to comply with GitHub's file size limitations.
创建时间:
2018-10-08
原始信息汇总
Product Title Summarization(PTS) Corpus
数据集描述
- 格式: 每行包含一对标题(原始标题和简短标题)、品牌和商品名称,以制表符分隔。
- 结构: 每行格式为
<original title> <short title> <brand> <commodity name>。
文件详情
- corpus: 用于CIKM 2018论文的数据集,简短标题长度小于11个字符。
- big_corpus: 更大的数据集,简短标题长度小于13个字符。此数据集因GitHub大小限制被分割成5个文件,前缀为
big_corpus.tar.gz_。
数据集重建方法
bash cd big_corpus cat big_corpus.tar.gz_* > big_corpus.tar.gz tar zxvf big_corpus.tar.gz
品牌信息
- 品牌: 某些产品的品牌可能包含多语言版本,以“/”分隔,例如 "Nintendo/任天堂"。
搜集汇总
数据集介绍

构建方式
Product Title Summarization (PTS) Corpus 数据集的构建基于商品标题的自动摘要任务,旨在为多源指针网络模型提供训练和评估数据。该数据集由原始标题、简短标题、品牌和商品名称组成,每条数据以制表符分隔,确保结构清晰。数据集分为两个版本:corpus 和 big_corpus,前者用于 CIKM 2018 论文,后者为更大规模的数据集,且通过分卷压缩以适应 GitHub 的文件大小限制。
特点
PTS Corpus 的核心特点在于其多语言品牌信息的丰富性,部分品牌名称以多种语言形式呈现,如“Nintendo/任天堂”,这为跨语言研究提供了便利。此外,数据集的简短标题长度严格控制在 11 或 13 个字符以内,确保了摘要的简洁性和一致性。big_corpus 的规模显著扩大,为模型训练提供了更广泛的数据支持,进一步提升了研究的深度和广度。
使用方法
使用 PTS Corpus 时,用户需首先下载数据集文件,并通过命令行工具将分卷压缩的 big_corpus 文件合并并解压。数据集以制表符分隔的文本格式存储,便于直接加载和处理。研究人员可利用该数据集训练和评估商品标题摘要模型,特别是针对多源指针网络等先进算法。通过分析原始标题与简短标题的对应关系,可以深入探索自动摘要技术的性能优化与创新。
背景与挑战
背景概述
Product Title Summarization (PTS) Corpus 数据集由Fei Sun等人于2018年创建,旨在解决电子商务领域中的产品标题摘要生成问题。该数据集首次在CIKM 2018会议上提出,并作为论文《Multi-Source Pointer Network for Product Title Summarization》的核心数据支撑。数据集包含原始标题、简短标题、品牌和商品名称,通过多源指针网络模型,研究人员能够从冗长的产品标题中提取出简洁且信息丰富的摘要。这一研究不仅推动了自然语言处理技术在电子商务中的应用,还为后续的文本摘要研究提供了重要的数据基础。
当前挑战
PTS Corpus 数据集在构建和应用过程中面临多重挑战。首先,产品标题的多样性和复杂性使得摘要生成任务极具挑战性,尤其是在保持信息完整性的同时实现简洁表达。其次,数据集中品牌名称的多语言版本增加了数据处理的难度,要求模型具备跨语言理解能力。此外,由于数据集规模较大,文件分割和重构过程也带来了技术上的复杂性,尤其是在GitHub平台的文件大小限制下,如何高效地管理和分发数据成为了一个实际问题。这些挑战不仅影响了数据集的构建过程,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
在电子商务领域,商品标题的简洁性和信息量是影响用户体验和搜索效率的关键因素。Product Title Summarization (PTS) Corpus数据集通过提供原始标题与简短标题的配对,为研究人员和开发者提供了一个理想的实验平台,用于训练和评估自动标题摘要生成模型。该数据集广泛应用于自然语言处理任务,特别是文本摘要和生成领域,帮助提升商品标题的优化效果。
解决学术问题
PTS Corpus数据集有效解决了商品标题自动摘要生成中的关键学术问题。通过提供大量真实场景下的标题对,该数据集支持了多源指针网络等先进模型的开发,显著提升了摘要生成的准确性和流畅性。此外,该数据集还为研究多语言品牌名称的处理提供了宝贵资源,推动了跨语言自然语言处理技术的发展。
衍生相关工作
PTS Corpus数据集催生了一系列经典研究工作,其中最著名的是CIKM 2018论文中提出的多源指针网络模型。该模型通过结合多源信息,显著提升了商品标题摘要生成的效果。此外,该数据集还激发了其他研究团队在文本摘要、多语言处理等领域的创新探索,推动了自然语言处理技术的进一步发展。
以上内容由遇见数据集搜集并总结生成



