five

Politeness Dataset

收藏
github2020-07-06 更新2024-05-31 收录
下载链接:
https://github.com/rmadaan3/politeness-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
用于礼貌转移任务的数据集,包含多个句子样本,每个样本有唯一的邮件ID、句子ID、文本内容、礼貌得分、是否有用标记、礼貌标签和分割类型。数据集通过预处理和修剪创建,确保数据质量。

A dataset designed for the task of politeness transfer, comprising multiple sentence samples. Each sample is uniquely identified by an email ID and a sentence ID, and includes text content, a politeness score, a usefulness flag, a politeness label, and a segmentation type. The dataset was created through preprocessing and trimming to ensure data quality.
创建时间:
2020-07-06
原始信息汇总

Politeness transfer dataset

数据集位置

样本

msg_id sent_id txt score is_useful p_tag split
13213843.1075843681416.JavaMail.evans@thyme 458 although it is not illegal under california or u.s. antitrust law for a firm to exercise its market power , it is illegal to do so under the federal power act . 0.00694478 1 P_0 test
1494329.1075847456937.JavaMail.evans@thyme 7 and i have made the changes in profile manager . 0.888002 1 P_8 train
17935488.1075861200114.JavaMail.evans@thyme 12 investigators think yemeni man was meant to be 20th hijacker 0.291539 1 P_2 train
10338432.1075852561293.JavaMail.evans@thyme 2 we recognize that this is a difficult time in many respects - we would like your input to determine if we have to cancel one or both of these trips . 0.969205 1 P_9 val
18585159.1075845278983.JavaMail.evans@thyme 10 there are two tabs , one tab contains the days 0.618491 1 P_6 train

列定义

列名 定义 类型
msg_id 唯一邮件ID 字符串
sent_id 语料库中每个句子的句子ID 整数
txt 实际文本 字符串
score 礼貌分数 浮点数
is_useful 句子是否有用。有用的句子是那些通过所有修剪标准的句子 整数(0/1)
p_tag 根据礼貌分数分配的礼貌标签 字符串(P_0至P_9)
split 分割(train/test/dev) 字符串

数据集创建

  • 原始数据集位于:https://www.cs.cmu.edu/~./enron/
  • 创建步骤包括:
    1. 预处理:使用spacy进行分词和转换为小写。
    2. 进一步修剪语料库,移除少于3个单词、超过80%数字标记、包含电子邮件地址或重复出现无效字符的句子。

手工精选测试集

搜集汇总
数据集介绍
main_image_url
构建方式
Politeness Dataset的构建过程始于对Enron电子邮件语料库的预处理,包括使用spacy进行分词和转换为小写字母。随后,通过一系列筛选标准对语料库进行修剪,剔除少于三个单词的句子、包含超过80%数字标记的句子、含有电子邮件地址的句子以及重复出现异常字符的句子。此外,数据集还包含一个手工策划的测试集,该测试集由800个句子组成,专门用于评估礼貌性转移任务的效果。
特点
Politeness Dataset的特点在于其专注于文本的礼貌性分析,每个句子都附有一个礼貌性评分和相应的礼貌性标签(P_0到P_9)。数据集中的句子经过严格筛选,确保其质量和实用性,且每个句子都被明确标记为训练集、测试集或验证集的一部分。这种结构化的数据组织方式为研究礼貌性转移提供了坚实的基础。
使用方法
使用Politeness Dataset时,研究人员可以通过分析txt列中的文本内容,结合score列的礼貌性评分和p_tag列的礼貌性标签,来训练和评估礼貌性转移模型。数据集的split列明确指示了每个句子的用途,便于用户根据需要进行数据分割。此外,手工策划的测试集可用于模型的最终评估,确保模型在实际应用中的表现。
背景与挑战
背景概述
Politeness Dataset 是一个专注于礼貌性转换任务的数据集,旨在研究文本中的礼貌性表达及其转换。该数据集基于著名的Enron电子邮件语料库构建,由卡内基梅隆大学的研究团队于2010年代初期开发。数据集的核心研究问题是如何通过自然语言处理技术,自动识别和转换文本中的礼貌性表达,从而提升机器生成文本的社交适应性。该数据集在自然语言处理领域具有重要影响力,尤其是在礼貌性分析和文本生成任务中,为相关研究提供了宝贵的资源。
当前挑战
Politeness Dataset 面临的挑战主要体现在两个方面。首先,礼貌性作为一种高度依赖上下文和文化背景的语言现象,其自动识别和转换具有较高的复杂性。数据集中标注的礼貌性标签(P_0到P_9)虽然提供了量化标准,但在实际应用中,如何准确捕捉文本中的细微礼貌性差异仍是一个难题。其次,数据集的构建过程中,研究人员需对原始文本进行大量预处理,包括去除短句、过滤含大量数字或重复字符的句子等,这些步骤虽然提升了数据质量,但也可能导致部分有用信息的丢失,从而影响模型的泛化能力。
常用场景
经典使用场景
Politeness Dataset 主要用于礼貌性文本转换任务的研究,特别是在自然语言处理领域。该数据集通过提供大量带有礼貌性评分的文本样本,使得研究人员能够训练和评估模型在文本礼貌性转换方面的性能。经典的使用场景包括礼貌性文本生成、礼貌性评分预测以及礼貌性风格迁移等任务。
实际应用
在实际应用中,Politeness Dataset 可以用于开发智能客服系统、电子邮件自动回复工具以及社交媒体内容生成系统。这些系统能够根据用户的输入自动调整文本的礼貌性,从而提升用户体验。例如,在客户服务中,系统可以根据用户的情绪和语境生成礼貌且得体的回复,减少沟通中的误解和冲突。
衍生相关工作
基于 Politeness Dataset,许多经典的研究工作得以展开。例如,研究人员开发了基于深度学习的礼貌性文本生成模型,这些模型能够根据输入的文本自动调整其礼貌性水平。此外,该数据集还催生了多项关于礼貌性语言特征分析的研究,进一步推动了自然语言处理领域在礼貌性文本处理方面的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作