bavard/personachat_truecased
收藏A More Natural PersonaChat
数据集概述
该数据集是Zhang等人(2018)的PersonaChat数据集的真实大小写版本。原始PersonaChat数据集全部为小写,并且在每个子句/句子分隔标点符号周围有额外的空格。此版本的数据集具有更自然的语言外观,包括句子大小写、专有名词大小写和标准化空白。此外,每个对话轮次包括一组干扰候选响应,可以在训练期间用于多选正则化损失。
例如,原始PersonaChat数据集中的一个话语如下:
"i really like celine dion . what about you ?"
在此数据集中,该示例为:
"I really like Celine Dion. What about you?"
语言
数据集中的文本为英语(en)。
数据字段
数据集的每个实例代表一个众包工作者在假装具有某种个性时所做的对话话语。每个实例包含以下字段:
| 字段名称 | 数据类型 | 描述 |
|---|---|---|
conv_id |
int | 实例对话的唯一标识符。 |
utterance_idx |
int | 实例在对话中的索引。 |
personality |
list of string | 描述当前说话者个性的句子。 |
history |
list of string | 到目前为止的对话话语,交替出现在说话者之间,每个说话者一句话。 |
candidates |
list of string | 包括干扰话语以及说话者根据其个性和对话历史给出的真实话语的列表。真实话语始终是此列表中的最后一个话语。 |
数据集制作
该数据集源自HuggingFace在2018年ConvAI提交代码中使用的数据集版本,该版本在他们的博客文章中有所描述。此版本的数据集已删除额外的空白,并使用StanfordNLP的stanza NLP管道进行词性标注以识别专有名词,然后进行大小写转换。该管道还用于进行句子分割,允许句子的开头进行大小写转换。最后,所有代词“I”及其缩写形式都进行了大小写转换。
引用信息
对于PersonaChat数据集,请引用:
@article{zhang2018personalizing, title={Personalizing dialogue agents: I have a dog, do you have pets too?}, author={Zhang, Saizheng and Dinan, Emily and Urbanek, Jack and Szlam, Arthur and Kiela, Douwe and Weston, Jason}, journal={arXiv preprint arXiv:1801.07243}, year={2018} }




