slogan-generation-dataset
收藏github2021-12-17 更新2024-05-31 收录
下载链接:
https://github.com/YipingNUS/slogan-generation-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于口号生成评估,包含5k个经过规则过滤的验证数据对和1k个人工策划的测试数据对。数据集构建过程在论文的Dataset部分有详细描述。
This dataset is designed for the evaluation of slogan generation, comprising 5,000 rule-filtered validation data pairs and 1,000 manually curated test data pairs. The construction process of the dataset is detailed in the Dataset section of the paper.
创建时间:
2021-01-26
原始信息汇总
数据集概述
数据集名称
- slogan-generation-dataset
数据集用途
- 用于评估口号生成,相关研究论文为《Toward Improving Coherence and Diversity of Slogan Generation》。
数据集内容
- 验证数据集:包含5,000个
<description, slogan>对,基于规则过滤。 - 测试数据集:包含1,000个手动精选的
<description, slogan>对。 - 数据集文件:
valid.csv:验证数据集文件。test-curated.csv:测试数据集文件。/v1文件夹:包含已弃用的V1数据集,存在噪声和冗余信息。diversity_eval文件夹:包含多样性人类评估数据,用于论文的Section 7.4。human_eval文件夹:包含主要人类评估数据,用于论文的Section 7.5。
数据集引用信息
-
引用格式:
@article{jin2021generating, title={Toward Improving Coherence and Diversity of Slogan Generation}, author={Yiping Jin and Akshay Bhatia and Dittaya Wanvarie and Phu T. V. Le}, journal={Natural Language Engineering}, pages={1--33}, year={In press}, note={Cambridge University Press} }
搜集汇总
数据集介绍

构建方式
slogan-generation-dataset的构建过程基于规则过滤和人工筛选相结合的方法。首先,通过规则过滤技术从大量原始数据中筛选出5k对<描述,口号>作为验证集,确保数据的初步质量。随后,研究人员进一步手动筛选出1k对高质量数据作为测试集,以确保数据的准确性和代表性。这一过程在相关论文的数据集部分有详细描述,确保了数据集的科学性和可靠性。
特点
该数据集的特点在于其高质量和多样性。验证集和测试集分别包含5k和1k对<描述,口号>数据,且所有口号均经过去词汇化处理,便于后续的词汇替换和模型训练。此外,数据集还包含了多样性评估和主要人工评估的结果,为研究者提供了丰富的评估维度。这些特点使得该数据集在口号生成领域具有较高的研究价值。
使用方法
使用slogan-generation-dataset时,研究者可以通过加载`valid.csv`和`test-curated.csv`文件获取验证集和测试集数据。输入描述和口号分别存储在`desc`和`output`列中,研究者可根据需要将去词汇化的描述进行词汇替换。此外,数据集还提供了多样性评估和主要人工评估的详细结果和分析工具,研究者可通过相关文件夹中的笔记本文件进行深入分析。使用该数据集时,请引用相关论文以尊重作者的研究成果。
背景与挑战
背景概述
slogan-generation-dataset是由Yiping Jin等研究人员于2021年创建的一个专注于口号生成的数据集,旨在提升口号生成的一致性和多样性。该数据集包含5000条基于规则过滤的验证数据和1000条手动整理的测试数据,主要用于评估自然语言生成模型在广告语生成任务中的表现。该数据集的研究成果发表在《Natural Language Engineering》期刊上,对广告语生成领域的研究具有重要影响,尤其是在提升生成内容的连贯性和多样性方面。
当前挑战
slogan-generation-dataset面临的挑战主要集中在两个方面。首先,在领域问题方面,广告语生成任务要求生成的内容不仅需要具备高度的连贯性,还需具备足够的多样性,以吸引不同受众的注意力。这种双重需求使得模型在生成过程中难以平衡一致性与创新性。其次,在数据集构建过程中,研究人员面临了数据清洗和去噪的挑战,尤其是在处理大规模原始数据时,如何有效过滤冗余信息并保留高质量数据成为一大难题。此外,由于部分数据涉及商业系统,无法公开完整训练数据,这也为后续研究带来了一定的局限性。
常用场景
经典使用场景
在自然语言处理领域,slogan-generation-dataset数据集被广泛应用于标语生成任务的研究中。该数据集包含了大量描述与标语对,为研究者提供了丰富的语料库,用于训练和评估标语生成模型。通过这一数据集,研究者能够深入探讨标语生成中的语言模型优化、文本生成质量提升等关键问题。
解决学术问题
slogan-generation-dataset数据集解决了标语生成任务中的两大核心问题:一致性与多样性。通过提供经过规则过滤和人工筛选的标语对,该数据集帮助研究者开发出能够生成既连贯又富有创意的标语的模型。这一突破不仅推动了自然语言生成技术的发展,还为广告、市场营销等领域的自动化文案生成提供了理论支持。
衍生相关工作
基于slogan-generation-dataset数据集,研究者们开展了多项经典工作。例如,Jin等人提出的标语生成模型在一致性和多样性方面取得了显著进展,相关成果发表在《Natural Language Engineering》期刊上。此外,该数据集还激发了更多关于文本生成、语言模型优化的研究,推动了自然语言处理领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



