five

nu-dialogue/real-persona-chat

收藏
Hugging Face2024-03-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nu-dialogue/real-persona-chat
下载链接
链接失效反馈
官方服务:
资源简介:
RealPersonaChat是一个包含约14,000个日语闲聊对话的语料库,涵盖了说话者本人的个性和性格特征。该数据集由对话数据和说话者数据组成,对话数据包括对话ID、说话者ID、发言内容以及每个说话者的评价分数;说话者数据包括说话者ID、个性描述、性格特征、人口统计信息和文本聊天经验。数据集适用于文本生成和文本分类任务,特别是对话建模和对话生成。

RealPersonaChat是一个包含约14,000个日语闲聊对话的语料库,涵盖了说话者本人的个性和性格特征。该数据集由对话数据和说话者数据组成,对话数据包括对话ID、说话者ID、发言内容以及每个说话者的评价分数;说话者数据包括说话者ID、个性描述、性格特征、人口统计信息和文本聊天经验。数据集适用于文本生成和文本分类任务,特别是对话建模和对话生成。
提供机构:
nu-dialogue
原始信息汇总

数据集卡片 for RealPersonaChat

数据集描述

数据集概要

RealPersonaChat 是一个包含约14,000条日语闲聊对话的语料库,其中包括说话者本人的个人特质和性格特征。

注意事项

  • 不要试图从数据集中识别个人。
  • 不要使用数据集进行特定说话者的冒充。
  • 在使用数据集进行说话者属性或性格特征的推断时,应注意保护说话者的隐私权利。

数据集使用

python from datasets import load_dataset

dialogue_dataset = load_dataset( "nu-dialogue/real-persona-chat", name="dialogue", trust_remote_code=True ) interlocutor_dataset = load_dataset( "nu-dialogue/real-persona-chat", name="interlocutor", trust_remote_code=True )

数据集结构

数据实例

对话数据

对话数据包括对话ID、说话者ID、发言以及说话者各自的评估分数。评估分数范围为1到5,1表示低,5表示高。

json { "dialogue_id": 1, "interlocutors": ["AA", "AB"], "utterances": { "utterance_id": [0, 1, 2, 3, 4, 5, ...], "interlocutor_id": ["AA", "AB", "AA", "AB", "AA", "AB", ...], "text": ["よろしくお願いいたします。", "よろしくお願いします!", "今日は涼しいですね", "雨が降って、何か涼しくなりましたね。", "そうですね、明日も涼しいと聞きました", "そうなんですか!でも、ちょっと湿度が高い気がします。", ...], "timestamp": [datetime.datetime(2022, 8, 6, 14, 51, 18, 360000), datetime.datetime(2022, 8, 6, 14, 51, 48, 482000), datetime.datetime(2022, 8, 6, 14, 51, 55, 538000), datetime.datetime(2022, 8, 6, 14, 52, 07, 388000), datetime.datetime(2022, 8, 6, 14, 52, 16, 400000), datetime.datetime(2022, 8, 6, 14, 52, 31, 076000), ...] }, "evaluations": { "interlocutor_id": ["AA", "AB"], "informativeness": [5, 5], "comprehension": [5, 5], "familiarity": [5, 5], "interest": [5, 5], "proactiveness": [5, 5], "satisfaction": [5, 5] } }

说话者数据

说话者数据包括说话者ID、个人特质、性格特征、属性以及文本聊天经验。性格特征分数越高,表示该性格倾向越强。

json { "interlocutor_id": "AH", "persona": [ "私は学生である。", "埼玉県出身である。", "私は毎日朝食を食べない。", "私は毎日ウォーキングをする。", "私はよくコンビニに行く。", "私はタイピングが早い。", "自分は物覚えが悪い。", "自分は将来の目標が明確に決まっている。", "毎日楽しいことを見つけられる。", "自分は好きなものにはとことんこだわる。" ], "personality": { "BigFive_Openness": 5.25, "BigFive_Conscientiousness": 3.1666667461395264, "BigFive_Extraversion": 3.3333332538604736, "BigFive_Agreeableness": 4.166666507720947, "BigFive_Neuroticism": 4.416666507720947, "KiSS18_BasicSkill": 4.0, "KiSS18_AdvancedSkill": 4.333333492279053, "KiSS18_EmotionalManagementSkill": 4.0, "KiSS18_OffenceManagementSkill": 4.0, "KiSS18_StressManagementSkill": 4.0, "KiSS18_PlanningSkill": 4.666666507720947, "IOS": 4, "ATQ_Fear": 5.0, "ATQ_Frustration": 3.5, "ATQ_Sadness": 3.0, "ATQ_Discomfort": 3.3333332538604736, "ATQ_ActivationControl": 3.7142856121063232, "ATQ_AttentionalControl": 3.799999952316284, "ATQ_InhibitoryControl": 3.142857074737549, "ATQ_Sociability": 4.0, "ATQ_HighIntensityPleasure": 4.5714287757873535, "ATQ_PositiveAffect": 3.4000000953674316, "ATQ_NeutralPerceptualSensitivity": 4.199999809265137, "ATQ_AffectivePerceptualSensitivity": 4.400000095367432, "ATQ_AssociativeSensitivity": 4.800000190734863, "SMS_Extraversion": 2.5999999046325684, "SMS_OtherDirectedness": 3.5833332538604736, "SMS_Acting": 3.75 }, "demographic_information": { "gender": 0, "age": 0, "education": 4, "employment_status": 2, "region_of_residence": 10 }, "text_chat_experience": { "age_of_first_chat": 0, "frequency": 0, "chatting_partners": [0, 1], "typical_chat_content": "学校に関すること、事務連絡など" } }

数据字段

对话数据

  • dialogue_id (int32): 对话ID。
  • interlocutors (sequence): 说话者ID的列表。
  • utterances (sequence): 发言的列表。
    • utterance_id (int32): 发言ID。在对话内唯一,从0开始索引。
    • interlocutor_id (string): 说话者ID。
    • text (string): 发言文本。
    • timestamp (timestamp[us]): 发言结束时的
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作