RealPersonaChat
收藏github2024-03-13 更新2024-05-31 收录
下载链接:
https://github.com/nu-dialogue/real-persona-chat
下载链接
链接失效反馈官方服务:
资源简介:
RealPersonaChat是一个包含约14,000个日语闲聊对话的语料库,其中包含说话者本人的个性和性格特征。
RealPersonaChat is a corpus containing approximately 14,000 Japanese casual conversation dialogues, which include the personality and character traits of the speakers themselves.
创建时间:
2024-01-19
原始信息汇总
RealPersonaChat 数据集概述
数据集描述
RealPersonaChat 是一个包含约14,000件日语闲聊对话的语料库,这些对话包含了说话者本人的角色和性格特征。公开发表的版本是从全部14,000个对话中,对个人信息进行掩码处理,并排除了从伦理角度考虑可能存在问题的对话。
统计信息
| RealPersonaChat | JPersonaChat | PersonaChat | |
|---|---|---|---|
| 对话数 | 13,583对话 | 5,000对话 | 10,907对话 |
| 每对话的发话数 | 30.08发话 | 12.36发话 | 14.86发话 |
| 发话数 | 408,619发话 | 61,793发话 | 162,064发话 |
| 每发话的文字数 | 13.16文字 | 40.25文字 | 11.71单词 |
| 词汇数 | 45,877单词 | 18,329单词 | 20,275单词 |
| 单词数 | 5,377,383单词 | 1,459,322单词 | 1,897,757单词 |
| 类型-标记比 | 0.009 | 0.013 | 0.011 |
| 角色数 | 233个(说话者本人的角色) | 100个(虚构的角色) | 7,027个(虚构的角色) |
| 每角色的文字数 | 10文,182.08文字 | 5文,62.87文字 | 5文,26.98单词 |
| 语言 | 日语 | 日语 | 英语 |
数据格式
数据集包含两个主要部分:
- 对话数据:位于
real_persona_chat/dialogues/*.json,每个文件包含一个对话,包括对话ID、说话者ID、发话和说话者评估分数。 - 说话者数据:位于
real_persona_chat/interlocutors.json,包含每个说话者的ID、角色、性格特征、属性、文本聊天经验。
数据内容
对话数据
对话数据包括对话ID、说话者ID、发话和评估分数。评估分数从1(低)到5(高),用于评价信息量、理解度、亲和力、兴趣、积极性和满意度。
说话者数据
说话者数据包括说话者ID、角色、性格特征、属性、文本聊天经验。性格特征包括Big Five、KiSS18、IOS、ATQ和SMS的分数。属性包括性别、年龄、教育、就业状况和居住地区。文本聊天经验包括首次聊天年龄、频率、聊天伙伴和典型聊天内容。
使用示例
数据集已被用于构建对话系统和性格预测模型的学习。在对话系统中,结合角色和性格特征的GPT-4模型获得了较高的评价。
搜集汇总
数据集介绍

构建方式
RealPersonaChat数据集的构建基于约14,000条日语自然对话,这些对话涵盖了说话者的个人特征和性格特质。为确保数据隐私和伦理合规,所有对话均经过严格的匿名化处理,剔除了可能涉及个人隐私或伦理问题的内容。数据收集过程中,研究者使用了MeCab形态素分析器和NEologd词典进行文本处理,以确保词汇和单字的准确统计。
特点
RealPersonaChat数据集的特点在于其丰富的对话内容和详细的说话者信息。每个对话平均包含30.08次发言,总计408,619次发言,涵盖了45,877个独特词汇。数据集不仅包含对话文本,还提供了说话者的个人特征、性格特质、人口统计信息以及文本聊天经验等多维度数据。这些信息为研究者在对话系统、性格预测等领域提供了宝贵的研究素材。
使用方法
RealPersonaChat数据集的使用方法多样,适用于对话系统构建、性格预测模型训练等研究场景。研究者可以通过对话数据文件(dialogues/*.json)和说话者数据文件(interlocutors.json)获取详细的对话和说话者信息。在使用过程中,需严格遵守数据隐私保护原则,避免对特定个体进行身份识别或滥用数据。数据集还提供了基于GPT-4/3.5的对话系统构建示例,展示了如何利用说话者的个人特征和性格特质提升对话系统的表现。
背景与挑战
背景概述
RealPersonaChat是由日本研究团队于2023年发布的一个包含约14,000个日语闲聊对话的语料库,旨在捕捉对话者的真实个性和性格特征。该数据集由Sanae Yamashita、Koji Inoue等研究人员主导,得到了JST Moonshot型研究开发项目的支持。其核心研究问题在于如何通过对话数据反映对话者的真实人格,从而推动个性化对话系统的发展。该数据集在自然语言处理领域具有重要影响力,特别是在个性化对话生成和性格预测模型的研究中,为相关领域提供了丰富的数据支持。
当前挑战
RealPersonaChat在构建过程中面临多重挑战。首先,数据收集和处理过程中需要确保对话者的隐私保护,避免个人信息的泄露。其次,对话数据的多样性和复杂性要求研究人员在数据清洗和标注时具备高度的细致性和准确性。此外,如何通过对话内容准确反映对话者的真实个性和性格特征,也是该数据集构建中的一大难题。在应用层面,如何利用该数据集训练出能够生成个性化对话的模型,以及如何通过对话数据预测对话者的性格,仍然是当前研究中的主要挑战。
常用场景
经典使用场景
RealPersonaChat数据集在自然语言处理领域中被广泛用于构建和评估个性化对话系统。通过包含真实用户的个人特征和性格特质,该数据集为研究者提供了一个丰富的资源,用于训练和测试对话模型,使其能够生成更加个性化和符合用户特征的对话内容。特别是在基于大语言模型(如GPT-4/3.5)的对话系统中,RealPersonaChat的引入显著提升了对话的一致性和用户满意度。
实际应用
在实际应用中,RealPersonaChat数据集被广泛用于开发智能客服、虚拟助手等对话系统。通过利用该数据集中的真实用户特征,开发者能够构建出更加贴近用户需求的对话系统,提升用户体验。例如,在智能客服场景中,系统可以根据用户的性格特质调整对话策略,提供更加个性化的服务。此外,该数据集还被用于教育领域,帮助开发个性化学习助手,根据学生的性格特征提供定制化的学习建议。
衍生相关工作
RealPersonaChat数据集催生了一系列相关研究,特别是在个性化对话系统和性格预测模型领域。例如,研究者利用该数据集开发了基于GPT-4的对话系统,通过结合用户的个人特征和性格特质,显著提升了对话的一致性和用户满意度。此外,该数据集还被用于性格预测模型的训练,推动了对话系统与心理学领域的交叉研究。相关研究不仅验证了该数据集的有效性,还为其在更广泛的应用场景中的使用提供了理论支持。
以上内容由遇见数据集搜集并总结生成



