Politeness Dataset

github2020-07-06 更新2024-05-31 收录

下载链接：

https://github.com/rmadaan3/politeness-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于礼貌转移任务的数据集，包含多个句子样本，每个样本有唯一的邮件ID、句子ID、文本内容、礼貌得分、是否有用标记、礼貌标签和分割类型。数据集通过预处理和修剪创建，确保数据质量。

A dataset designed for the task of politeness transfer, comprising multiple sentence samples. Each sample is uniquely identified by an email ID and a sentence ID, and includes text content, a politeness score, a usefulness flag, a politeness label, and a segmentation type. The dataset was created through preprocessing and trimming to ensure data quality.

创建时间：

2020-07-06

原始信息汇总

Politeness transfer dataset

数据集位置

Politeness Dataset

样本

msg_id	sent_id	txt	score	is_useful	p_tag	split
13213843.1075843681416.JavaMail.evans@thyme	458	although it is not illegal under california or u.s. antitrust law for a firm to exercise its market power , it is illegal to do so under the federal power act .	0.00694478	1	P_0	test
1494329.1075847456937.JavaMail.evans@thyme	7	and i have made the changes in profile manager .	0.888002	1	P_8	train
17935488.1075861200114.JavaMail.evans@thyme	12	investigators think yemeni man was meant to be 20th hijacker	0.291539	1	P_2	train
10338432.1075852561293.JavaMail.evans@thyme	2	we recognize that this is a difficult time in many respects - we would like your input to determine if we have to cancel one or both of these trips .	0.969205	1	P_9	val
18585159.1075845278983.JavaMail.evans@thyme	10	there are two tabs , one tab contains the days	0.618491	1	P_6	train

列定义

列名	定义	类型
msg_id	唯一邮件ID	字符串
sent_id	语料库中每个句子的句子ID	整数
txt	实际文本	字符串
score	礼貌分数	浮点数
is_useful	句子是否有用。有用的句子是那些通过所有修剪标准的句子	整数(0/1)
p_tag	根据礼貌分数分配的礼貌标签	字符串(P_0至P_9)
split	分割(train/test/dev)	字符串

数据集创建

原始数据集位于：https://www.cs.cmu.edu/~./enron/
创建步骤包括：
1. 预处理：使用spacy进行分词和转换为小写。
2. 进一步修剪语料库，移除少于3个单词、超过80%数字标记、包含电子邮件地址或重复出现无效字符的句子。

手工精选测试集

包含800个句子的手工精选测试集位于：https://github.com/tag-and-generate/politeness-dataset/blob/master/politeness-curated-test.csv

搜集汇总

数据集介绍

构建方式

Politeness Dataset的构建过程始于对Enron电子邮件语料库的预处理，包括使用spacy进行分词和转换为小写字母。随后，通过一系列筛选标准对语料库进行修剪，剔除少于三个单词的句子、包含超过80%数字标记的句子、含有电子邮件地址的句子以及重复出现异常字符的句子。此外，数据集还包含一个手工策划的测试集，该测试集由800个句子组成，专门用于评估礼貌性转移任务的效果。

特点

Politeness Dataset的特点在于其专注于文本的礼貌性分析，每个句子都附有一个礼貌性评分和相应的礼貌性标签（P_0到P_9）。数据集中的句子经过严格筛选，确保其质量和实用性，且每个句子都被明确标记为训练集、测试集或验证集的一部分。这种结构化的数据组织方式为研究礼貌性转移提供了坚实的基础。

使用方法

使用Politeness Dataset时，研究人员可以通过分析txt列中的文本内容，结合score列的礼貌性评分和p_tag列的礼貌性标签，来训练和评估礼貌性转移模型。数据集的split列明确指示了每个句子的用途，便于用户根据需要进行数据分割。此外，手工策划的测试集可用于模型的最终评估，确保模型在实际应用中的表现。

背景与挑战

背景概述

Politeness Dataset 是一个专注于礼貌性转换任务的数据集，旨在研究文本中的礼貌性表达及其转换。该数据集基于著名的Enron电子邮件语料库构建，由卡内基梅隆大学的研究团队于2010年代初期开发。数据集的核心研究问题是如何通过自然语言处理技术，自动识别和转换文本中的礼貌性表达，从而提升机器生成文本的社交适应性。该数据集在自然语言处理领域具有重要影响力，尤其是在礼貌性分析和文本生成任务中，为相关研究提供了宝贵的资源。

当前挑战

Politeness Dataset 面临的挑战主要体现在两个方面。首先，礼貌性作为一种高度依赖上下文和文化背景的语言现象，其自动识别和转换具有较高的复杂性。数据集中标注的礼貌性标签（P_0到P_9）虽然提供了量化标准，但在实际应用中，如何准确捕捉文本中的细微礼貌性差异仍是一个难题。其次，数据集的构建过程中，研究人员需对原始文本进行大量预处理，包括去除短句、过滤含大量数字或重复字符的句子等，这些步骤虽然提升了数据质量，但也可能导致部分有用信息的丢失，从而影响模型的泛化能力。

常用场景

经典使用场景

Politeness Dataset 主要用于礼貌性文本转换任务的研究，特别是在自然语言处理领域。该数据集通过提供大量带有礼貌性评分的文本样本，使得研究人员能够训练和评估模型在文本礼貌性转换方面的性能。经典的使用场景包括礼貌性文本生成、礼貌性评分预测以及礼貌性风格迁移等任务。

实际应用

在实际应用中，Politeness Dataset 可以用于开发智能客服系统、电子邮件自动回复工具以及社交媒体内容生成系统。这些系统能够根据用户的输入自动调整文本的礼貌性，从而提升用户体验。例如，在客户服务中，系统可以根据用户的情绪和语境生成礼貌且得体的回复，减少沟通中的误解和冲突。

衍生相关工作

基于 Politeness Dataset，许多经典的研究工作得以展开。例如，研究人员开发了基于深度学习的礼貌性文本生成模型，这些模型能够根据输入的文本自动调整其礼貌性水平。此外，该数据集还催生了多项关于礼貌性语言特征分析的研究，进一步推动了自然语言处理领域在礼貌性文本处理方面的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集