bavard/personachat_truecased

Name: bavard/personachat_truecased
Creator: bavard
Published: 2021-04-23 13:28:30
License: 暂无描述

Hugging Face2021-04-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bavard/personachat_truecased

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Zhang等人（2018）的PersonaChat数据集的真实大小写版本。原始数据集为全小写，且在每个标点符号周围有额外的空格。此版本的数据集更接近自然语言，包括句子首字母大写、专有名词大写以及标准化的空格。此外，每个对话轮次都包含一组干扰候选响应，可用于训练期间的多选正则化损失。数据集中的文本为英语。每个实例代表一个对话语句，由众包工作者在假装具有某种个性时生成。每个实例包含对话ID、语句索引、个性描述、对话历史以及候选响应等字段。数据集来源于HuggingFace的ConvAI 2018提交代码中使用的数据集版本，并经过额外的空格移除、专有名词大写、句子首字母大写以及代词I及其缩写的大写处理。

This dataset is the true-cased version of the PersonaChat dataset introduced by Zhang et al. (2018). The original dataset was entirely in lowercase, with extra spaces surrounding every punctuation mark. This revised version aligns more closely with natural language, featuring proper sentence initial capitalization, capitalization of proper nouns, and standardized spacing. Additionally, each dialogue turn includes a set of distractor candidate responses, which can be used for multiple-choice regularization loss during model training. All text in the dataset is in English. Each instance represents a single dialogue utterance, generated by crowdworkers while assuming a specific persona. Each instance contains fields such as dialogue ID, utterance index, persona description, dialogue history, and candidate responses. The dataset is derived from the version used in the ConvAI 2018 submission code hosted on HuggingFace, with additional preprocessing steps including removal of extra spaces, capitalization of proper nouns, sentence initial capitalization, and capitalization of the pronoun "I" and its contractions.

提供机构：

bavard

原始信息汇总

A More Natural PersonaChat

数据集概述

该数据集是Zhang等人（2018）的PersonaChat数据集的真实大小写版本。原始PersonaChat数据集全部为小写，并且在每个子句/句子分隔标点符号周围有额外的空格。此版本的数据集具有更自然的语言外观，包括句子大小写、专有名词大小写和标准化空白。此外，每个对话轮次包括一组干扰候选响应，可以在训练期间用于多选正则化损失。

例如，原始PersonaChat数据集中的一个话语如下：

"i really like celine dion . what about you ?"

在此数据集中，该示例为：

"I really like Celine Dion. What about you?"

语言

数据集中的文本为英语（en）。

数据字段

数据集的每个实例代表一个众包工作者在假装具有某种个性时所做的对话话语。每个实例包含以下字段：

字段名称	数据类型	描述
`conv_id`	int	实例对话的唯一标识符。
`utterance_idx`	int	实例在对话中的索引。
`personality`	list of string	描述当前说话者个性的句子。
`history`	list of string	到目前为止的对话话语，交替出现在说话者之间，每个说话者一句话。
`candidates`	list of string	包括干扰话语以及说话者根据其个性和对话历史给出的真实话语的列表。真实话语始终是此列表中的最后一个话语。

数据集制作

该数据集源自HuggingFace在2018年ConvAI提交代码中使用的数据集版本，该版本在他们的博客文章中有所描述。此版本的数据集已删除额外的空白，并使用StanfordNLP的stanza NLP管道进行词性标注以识别专有名词，然后进行大小写转换。该管道还用于进行句子分割，允许句子的开头进行大小写转换。最后，所有代词“I”及其缩写形式都进行了大小写转换。

引用信息

对于PersonaChat数据集，请引用：

@article{zhang2018personalizing, title={Personalizing dialogue agents: I have a dog, do you have pets too?}, author={Zhang, Saizheng and Dinan, Emily and Urbanek, Jack and Szlam, Arthur and Kiela, Douwe and Weston, Jason}, journal={arXiv preprint arXiv:1801.07243}, year={2018} }

搜集汇总

数据集介绍

构建方式

在对话生成研究领域，构建高质量数据集是推动个性化对话代理发展的基石。bavard/personachat_truecased数据集基于Zhang等人（2018）提出的原始PersonaChat数据集，通过系统化的文本规范化流程重构而成。原始数据全部采用小写形式，且标点符号周围存在额外空格，本版本运用斯坦福自然语言处理工具stanza进行词性标注与句子分割，识别并大写专有名词及句子首字母，同时规范化空格，并将代词“I”及其缩写统一大写，从而生成更贴近自然语言表达形态的真实大小写版本。

使用方法

研究人员可利用该数据集训练端到端的对话生成模型，尤其适用于个性化对话代理的开发。使用时应依据conv_id与utterance_idx字段组织对话序列，结合personality字段注入角色特征，并利用candidates字段实施多项选择训练或评估，其中真实响应固定于列表末尾。数据以英语呈现，适用于自然语言处理任务如响应选择、对话生成及个性一致性分析，为模型在真实场景中的适应性提供了丰富语料。

背景与挑战

背景概述

在对话系统研究领域，构建能够展现个性化特征的智能体一直是核心目标之一。由张赛征等人于2018年创建的PersonaChat数据集，正是为了探索如何将预设的人格描述融入开放域对话而设计。该数据集通过众包方式收集，要求参与者基于给定的人格句子进行对话，从而生成了大量富含个性色彩的对话实例。这一创新性工作不仅推动了个性化对话生成模型的发展，也为后续研究如ConvAI 2018竞赛提供了重要基准，深刻影响了人机交互的自然性与深度。

当前挑战

PersonaChat数据集旨在解决个性化对话生成中的核心挑战，即如何使模型在对话中一致且自然地体现特定人格。这要求模型不仅能理解人格描述，还需在多变对话上下文中维持人格一致性，避免生成通用或矛盾回应。在构建过程中，原始数据全为小写且标点周围存在额外空格，缺乏自然语言书写规范。为此，bavard/personachat_truecased版本通过引入句法分析和命名实体识别技术，实现了句子首字母大写、专有名词标准化以及空格规范化，从而提升了数据的可读性与真实性，为模型训练提供了更贴近人类表达习惯的语料。

常用场景

经典使用场景

在对话系统研究领域，bavard/personachat_truecased数据集为个性化对话生成提供了经典实验平台。该数据集通过真实对话记录与人格描述的结合，使研究者能够模拟具有特定性格特征的对话代理。其核心应用场景在于训练模型根据预设人格生成连贯且个性化的回复，从而推动开放域对话系统向更具人性化和一致性的方向发展。

解决学术问题

该数据集有效解决了对话系统中人格一致性与上下文连贯性的关键学术难题。通过提供带有人格描述的对话历史与候选回复，它支持模型学习如何在多轮交互中保持角色特质，避免了传统对话系统常出现的逻辑断裂或人格漂移问题。这一设计显著提升了对话代理的可信度与自然度，为个性化人工智能交互奠定了数据基础。

实际应用

在实际应用中，该数据集为开发个性化客服助手、虚拟伴侣及教育对话系统提供了重要支撑。基于人格驱动的回复生成技术，系统能够根据用户画像提供定制化服务，例如在心理健康辅导中模拟具有同理心的对话者，或在娱乐应用中塑造具有鲜明性格的虚拟角色。这种能力增强了人机交互的沉浸感与实用性。

数据集最近研究