five

PersonalSum

收藏
arXiv2024-10-05 更新2024-10-09 收录
下载链接:
https://github.com/SmartmediaAI/PersonalSum
下载链接
链接失效反馈
官方服务:
资源简介:
PersonalSum是由挪威科技大学计算机科学系创建的高质量个性化摘要数据集,旨在研究公共读者的关注点是否与大型语言模型生成的通用摘要不同。数据集包含用户档案、个性化摘要及其来源句,以及机器生成的通用摘要。数据集通过多轮人工标注和机器辅助评估确保质量,涵盖新闻领域的1816篇文章。创建过程包括通用摘要生成、个性化摘要标注和后质量控制三个阶段。该数据集主要用于个性化文本摘要任务,旨在解决现有通用摘要无法满足用户个性化需求的问题。

PersonalSum is a high-quality personalized summarization dataset developed by the Department of Computer Science at the Norwegian University of Science and Technology. It is constructed to investigate whether the concerns of general readers diverge from those presented in generic summaries generated by large language models. The dataset includes user profiles, personalized summaries and their corresponding source sentences, as well as machine-generated generic summaries. Its quality is ensured via multi-round manual annotation and machine-assisted evaluation, covering 1,816 news articles spanning the news domain. The dataset creation process involves three stages: generic summary generation, personalized summary annotation, and post-quality control. This dataset is mainly applied to personalized text summarization tasks, with the goal of addressing the limitation that existing generic summaries fail to meet users' personalized needs.
提供机构:
挪威科技大学计算机科学系
创建时间:
2024-10-05
原始信息汇总

PersonalSum

概述

PersonalSum 是一个用于大型语言模型的个性化摘要数据集,旨在创建高质量的个性化摘要数据集,并研究通用机器生成的摘要与根据个人用户偏好个性化的摘要之间的差异。

数据集结构

数据集包含以下两个主要CSV文件:

  • PersonalSum_original.csv: 原始数据集,包含个性化摘要。
  • Topic_centric_PersonalSum.csv: 按主题组织的个性化摘要数据集。

数据集功能

  1. 个性化摘要: 通过整合用户配置文件和个性化注释,生成符合个人用户偏好的摘要。
  2. 通用摘要: 包含机器生成的摘要,用于与个性化摘要进行比较分析。

数据集属性

  • 用户配置文件: 每个注释者分配一个唯一的WorkerID,用于跟踪不同任务中的注释。
  • AssignmentID: 表示特定的注释任务。
  • 持续时间: 每个工人完成注释任务所花费的总时间。
  • 摘要: 提供通用和个性化摘要及其对应的源句子。
  • 问题答案集: 包含与每篇文章内容直接相关的三个问题和答案对。

数据集链接

Huggingface PersonalSum

许可证

该数据集在Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可证下发布。

联系

如有任何问题或疑问,请联系 lemei.zhang@ntnu.nopeng.liu@ntnu.no

搜集汇总
数据集介绍
main_image_url
构建方式
PersonalSum数据集的构建过程分为三个主要阶段。首先,从Schibsted公司提供的465篇新闻文章中,均匀分布于10个类别,生成通用摘要。这些摘要由三名挪威母语学生使用GPT-4生成,并进行语言流畅性、事实一致性和与原文连贯性的修订。其次,通过Amazon Mechanical Turk招募标注者,进行个性化摘要任务。标注者需根据个人兴趣和偏好,生成简洁且信息丰富的摘要,并提供摘要来源。最后,通过迭代的质量控制阶段,使用OpenAI GPT-3.5-Turbo进行自动评估,确保摘要的连贯性、一致性和相关性。
特点
PersonalSum数据集的显著特点在于其个性化和高质量的手动标注。每篇文章包含多个普通用户基于其兴趣标注的个性化摘要,以及机器生成的通用摘要。此外,数据集还包括用户档案、与新闻文章相关的多对问答集,以及机器生成摘要的来源信息。这些特点使得PersonalSum成为研究个性化摘要生成和用户阅读习惯的宝贵资源。
使用方法
PersonalSum数据集可用于多种自然语言处理任务,如个性化摘要生成模型的训练与评估、用户阅读习惯分析、以及机器生成摘要与人工摘要的对比研究。研究者可以通过分析用户档案和个性化摘要,探索影响个性化摘要生成的关键因素,如实体、主题、情节和文章结构。此外,数据集还可用于评估模型在不同上下文学习场景中的表现,以及探索用户对不同摘要风格的偏好。
背景与挑战
背景概述
PersonalSum数据集由挪威科技大学计算机科学系的研究团队创建,旨在解决个性化摘要生成领域中的关键问题。该数据集首次引入了用户主观引导的个性化摘要标注,通过收集普通用户的个性化摘要,填补了现有数据集中缺乏用户特定需求代表性的空白。PersonalSum数据集的核心研究问题在于探讨公共读者的关注点是否与大型语言模型生成的通用摘要存在差异。该数据集的构建时间为2024年,主要研究人员包括Lemei Zhang、Peng Liu等,其研究成果在第38届神经信息处理系统会议(NeurIPS 2024)上发表,对个性化文本摘要领域产生了重要影响。
当前挑战
PersonalSum数据集在构建过程中面临多重挑战。首先,个性化摘要生成需要解决领域问题,即如何生成既符合用户偏好又保持相关性和非冗余性的摘要。其次,构建过程中遇到的挑战包括缺乏公开可用的个性化摘要数据集,现有数据集多依赖于伪数据或特定控制任务,缺乏用户主动性。此外,现有数据集在用户信息收集方面存在局限,如缺乏阅读时间和具体内容参与度等关键用户信息,限制了个性化研究的深入。PersonalSum通过引入用户档案和个性化摘要,试图克服这些挑战,但其仍需面对用户兴趣多样性和模型生成摘要与用户需求匹配度的验证难题。
常用场景
经典使用场景
PersonalSum 数据集的经典使用场景在于其能够为个性化摘要生成任务提供高质量的人工标注数据。该数据集通过收集普通用户的个性化摘要,填补了现有通用摘要数据集在满足个体需求方面的空白。研究者可以利用 PersonalSum 数据集训练和评估模型,以生成更符合用户偏好的摘要,从而提升大型语言模型在个性化摘要任务中的表现。
衍生相关工作
PersonalSum 数据集的发布催生了一系列相关研究工作,特别是在个性化摘要生成和用户偏好建模领域。研究者们利用该数据集开展了多方面的研究,包括用户偏好信号的提取、个性化摘要生成模型的训练与评估等。此外,PersonalSum 还激发了对现有摘要生成数据集的重新审视和改进,推动了整个领域的技术进步。
数据集最近研究
最新研究方向
在自然语言处理领域,个性化文本摘要任务因其对用户个人偏好和焦点的关注而成为一个重要且具有挑战性的研究方向。PersonalSum数据集的最新研究聚焦于探讨大型语言模型(LLMs)生成的通用摘要是否能满足普通人的个性化需求。该数据集首次引入了用户档案和个性化摘要,通过手动标注的方式,研究公众读者的关注点是否与LLMs生成的通用摘要有所不同。初步结果表明,实体/主题仅仅是影响用户多样偏好的关键因素之一,个性化摘要生成对现有LLMs仍是一个重大挑战。此外,研究还探讨了实体、情节和文章结构等因素在个性化摘要生成中的作用,发现这些因素对生成结果有显著影响。这些研究不仅推动了个性化摘要技术的发展,也为理解用户阅读习惯和信息提取偏好提供了新的视角。
相关研究论文
  • 1
    PersonalSum: A User-Subjective Guided Personalized Summarization Dataset for Large Language Models挪威科技大学计算机科学系 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作