five

FaithCAMERA

收藏
arXiv2024-10-05 更新2024-10-09 收录
下载链接:
https://github.com/CyberAgentAILab/
下载链接
链接失效反馈
官方服务:
资源简介:
FaithCAMERA是由CyberAgent公司创建的一个用于广告文本生成评估的数据集,旨在确保广告文本的忠实度和信息量。数据集包含872条记录,每条记录包括输入文档和经过精炼的参考广告文本。数据集的创建过程包括关键句选择、不忠实片段的移除、新参考文本的创建和手动检查忠实度。FaithCAMERA主要应用于广告文本生成研究,旨在解决现有数据集在忠实度评估上的不足,确保生成广告文本既忠实于输入又具有吸引力。

FaithCAMERA is a dataset developed by CyberAgent Inc. for advertising text generation evaluation, designed to ensure the faithfulness and informativeness of generated advertising texts. The dataset includes 872 records, each containing an input document and a refined reference advertising text. The dataset construction process covers key sentence selection, removal of unfaithful segments, generation of new reference texts, and manual faithfulness verification. FaithCAMERA is mainly applied in advertising text generation research, aiming to address the shortcomings of existing datasets in faithfulness evaluation, and to ensure that generated advertising texts are both faithful to the input content and engaging.
提供机构:
CyberAgent公司
创建时间:
2024-10-05
搜集汇总
数据集介绍
main_image_url
构建方式
FaithCAMERA数据集的构建过程经过精心设计,以确保广告文本的忠实性和信息性。首先,通过从输入文档中选择关键句子,创建一个关键句子集合。接着,从原始参考文本中移除包含非关键信息的不忠实片段。然后,基于修改后的参考文本,标注者创建一个新的忠实于输入的参考文本。最后,通过三位不同的标注者对新参考文本进行忠实性检查,确保其忠实性。这一过程确保了FaithCAMERA数据集中的广告文本在忠实性和信息性之间达到平衡。
特点
FaithCAMERA数据集的一个显著特点是其高度的忠实性。与现有的CAMERA数据集相比,FaithCAMERA通过严格的标注流程确保了参考文本对输入文档的忠实性。此外,该数据集在提取性和抽象性之间取得了良好的平衡,避免了过度提取的问题。FaithCAMERA还包含了大量的同义词和短语重排,使得简单的提取式摘要方法不足以生成忠实且信息丰富的广告文本。
使用方法
FaithCAMERA数据集主要用于评估广告文本生成模型的忠实性和信息性。研究者可以使用该数据集来测试和比较不同的忠实性改进方法,如数据过滤和损失截断。通过自动评估指标如precs和prect,以及手动评估,可以全面评估模型在实体级别和句子级别的忠实性和信息性。此外,FaithCAMERA还可以用于训练新的广告文本生成模型,以确保模型在生成广告文本时能够保持对输入文档的忠实性。
背景与挑战
背景概述
随着在线广告的普及,广告文本自动生成(Ad Text Generation, ATG)的研究需求日益增长。ATG旨在根据输入的源文档(如着陆页)和用户信号(如搜索查询)生成吸引人的广告文本。然而,现有评估数据集如CAMERA在评估信息量方面表现良好,但其参考广告文本往往包含与输入不符的信息,这成为推动ATG研究的主要障碍。为此,CyberAgent公司的研究团队与内部广告创作者合作,通过精炼CAMERA的参考文本,创建了名为FaithCAMERA的新评估数据集,确保参考文本的忠实性。FaithCAMERA的推出不仅为评估现有方法的忠实性提供了平台,还揭示了在保持忠实性的同时提高信息量的重要性。
当前挑战
FaithCAMERA数据集的构建面临两大挑战:一是确保参考广告文本的忠实性,这需要在数据集创建过程中严格筛选和编辑信息,以避免不忠实的实体和句子;二是平衡忠实性与信息量,即在保证广告文本忠实于输入的同时,确保其包含吸引潜在客户的重要信息。此外,数据集的统计分析显示,FaithCAMERA在提取性方面较CAMERA有所提升,但并非过度提取,这表明简单的提取性摘要方法不足以生成既忠实又信息丰富的广告文本。未来研究需在扩大训练数据规模的同时,确保数据的忠实性。
常用场景
经典使用场景
FaithCAMERA数据集在广告文本生成(ATG)领域中被广泛用于评估生成文本的忠实度和信息量。通过与内部广告创作者的合作,FaithCAMERA确保了参考广告文本对输入文档的忠实性,从而为现有方法提供了评估其在保持忠实性的同时生成信息丰富广告文本的能力的平台。
解决学术问题
FaithCAMERA数据集解决了现有评估数据集中参考广告文本常包含与输入不忠实信息的问题,这一问题阻碍了ATG研究的进展。通过确保参考文本的忠实性,FaithCAMERA为研究人员提供了一个可靠的基准,用以评估和改进生成模型的忠实度和信息量,从而推动了ATG领域的学术研究。
衍生相关工作
FaithCAMERA数据集的推出激发了大量相关研究,特别是在提高广告文本生成模型忠实度和信息量方面。例如,数据过滤和损失截断等方法在此数据集上的应用,不仅提升了模型的性能,还为其他自然语言生成任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作