PersonalSum

github2024-06-12 更新2024-06-13 收录

下载链接：

https://github.com/SmartmediaAI/PersonalSum

下载链接

链接失效反馈

官方服务：

资源简介：

PersonalSum：一个用户主观引导的个性化总结数据集，用于大型语言模型

PersonalSum: A user-guided personalized summarization dataset for large language models

创建时间：

2024-06-05

原始信息汇总

数据集概述

名称: PersonalSum

描述: PersonalSum是一个专为大型语言模型设计的高质量个性化摘要数据集，旨在研究通用机器生成摘要与个性化用户偏好摘要之间的差异。

数据集结构

目录结构:
- dataset/
  - PersonalSum_original.csv: 原始数据集，包含个性化摘要。
  - Topic_centric_PersonalSum.csv: 以主题为中心的数据集，便于特定主题的分析和比较。

数据集内容

PersonalSum_original.csv:
- 包含由人工注释者创建的个性化摘要，反映其个人兴趣和偏好。
- 包括用户配置文件和文章来源句子。
Topic_centric_PersonalSum.csv:
- 组织围绕特定主题的摘要。
- 便于在特定主题领域内进行分析和比较。
- 数据收集在PersonalSum_original.csv之后进行，每个任务专注于同一主题，以研究摘要质量与用户主题偏好之间的潜在关联。

数据集功能

个性化摘要: 通过整合用户配置文件和个性化注释，创建与个人用户偏好一致的摘要。
通用摘要: 包括机器生成的摘要，用于与个性化摘要进行比较分析。

数据集属性

用户配置文件: 每个注释者分配一个唯一的WorkerID，用于跨不同任务跟踪同一人的注释。
AssignmentID: 代表特定的注释任务，每个注释者在同一AssignmentID下总结三篇不同的新闻文章。
持续时间: 表示每个工作者完成注释任务的总时间。
摘要: 提供通用和个性化摘要以及相应的新闻文章来源句子。
问题答案集: 包含与每篇文章直接相关的三个问题和答案对。

许可证

本数据集根据Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可证提供，允许在非商业目的下自由分享和改编，需适当注明来源，并指明任何更改。

搜集汇总

数据集介绍

构建方式

PersonalSum数据集的构建基于用户主观引导的个性化摘要生成方法。该数据集通过人工标注的方式，收集了反映个体用户偏好的新闻摘要。具体构建过程包括：首先，通过Amazon Mechanical Turk（MTurk）平台招募标注者，每位标注者根据其个人兴趣和偏好对新闻文章进行摘要；其次，使用AssignmentFilter和BanFilter类对标注任务进行质量控制，确保摘要的质量；最后，将标注数据整理为两个主要CSV文件，即PersonalSum_original.csv和Topic_centric_PersonalSum.csv，分别用于个性化摘要和主题中心摘要的研究。

特点

PersonalSum数据集的主要特点在于其个性化和主题中心的摘要设计。该数据集不仅包含了反映个体用户偏好的个性化摘要，还提供了机器生成的通用摘要，以便进行对比分析。此外，数据集中的每个摘要都附有用户配置文件和源文章的句子，使得研究者能够深入分析用户偏好与摘要质量之间的关系。Topic_centric_PersonalSum.csv文件则进一步围绕特定主题组织数据，便于在不同主题领域内进行摘要质量的比较研究。

使用方法

使用PersonalSum数据集时，研究者可以通过加载PersonalSum_original.csv或Topic_centric_PersonalSum.csv文件来获取数据。数据集提供了丰富的元数据，包括用户配置文件、任务ID、标注时间、摘要内容以及相关的问题答案集。研究者可以使用这些数据来训练和评估个性化摘要生成模型，或者进行用户偏好与摘要质量之间关系的研究。此外，数据集还提供了Python脚本和Jupyter Notebook，方便用户进行数据处理和分析。

背景与挑战

背景概述

PersonalSum数据集是由挪威科技大学（NTNU）的研究人员创建，旨在为大型语言模型提供个性化摘要的数据集。该数据集的核心研究问题在于探索通用机器生成的摘要与根据用户偏好个性化生成的摘要之间的差异。PersonalSum不仅填补了现有研究中依赖通用摘要或伪数据集的空白，还为个性化文本摘要模型的开发提供了高质量、手动标注的新闻摘要数据。通过整合用户档案和个性化标注，该数据集支持个性化摘要的创建，并促进了对个人兴趣和偏好如何影响摘要任务的深入研究。

当前挑战

PersonalSum数据集在构建过程中面临多项挑战。首先，个性化摘要的生成需要准确捕捉和反映用户的偏好，这要求数据集在设计和标注过程中具备高度的用户主观性。其次，数据集的构建涉及大量的人工标注工作，如何确保标注质量的一致性和可靠性是一个重要问题。此外，数据集的多样性和覆盖范围也需要精心设计，以确保其在不同主题和领域中的适用性。最后，数据集的有效性和实用性需要在实际应用中进行验证，这包括模型训练和评估的复杂性。

常用场景

经典使用场景

PersonalSum数据集的经典使用场景主要集中在个性化文本摘要的生成与评估。通过该数据集，研究人员可以探索如何根据用户的个性化偏好生成摘要，从而提升摘要的准确性和用户满意度。具体应用包括开发能够理解并适应用户兴趣的摘要生成模型，以及设计评估这些模型性能的标准化方法。

衍生相关工作

基于PersonalSum数据集，研究者们已经开展了一系列相关工作。例如，有研究利用该数据集开发了能够动态调整摘要内容以适应用户兴趣的智能摘要系统。此外，还有研究探讨了如何通过用户反馈机制进一步优化个性化摘要生成模型。这些工作不仅丰富了个性化摘要领域的理论基础，也为实际应用提供了技术支持。

数据集最近研究