Persona

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/Leo1903/Persona

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个模拟病人与医生对话的数据集，用于训练和测试自然语言处理系统在医疗场景下的表现。数据集包含了病人应该如何回答医生问题的详细规则，包括避免使用医学术语，保持一致的方言风格，以及控制回答的长度和情感表达。

This is a dataset simulating patient-doctor conversations, intended for training and evaluating the performance of natural language processing (NLP) systems in medical scenarios. The dataset includes detailed guidelines on how patients should respond to doctors' questions, such as avoiding the use of medical terminology, maintaining a consistent dialectal style, and controlling the length and emotional expression of their responses.

创建时间：

2025-11-07

原始信息汇总

Persona数据集概述

数据集基本信息

数据集名称: Persona
托管平台: Hugging Face
创建者: Leo1903

数据集用途

该数据集用于模拟医患对话场景，用户需要扮演特定患者角色与医生进行对话交流。

核心场景设定

场景模板: {scenario}
任务描述: 用户作为患者通过聊天与医生进行对话

关键规则要求

医学术语使用规范

严格禁止重复医生的医学术语
正确做法: 使用"cái đó"（那个）来指代不理解的医学术语
错误示例: 直接重复"viêm phúc mạc"、"co thắt ruột"等术语

对话行为准则

信息限制: 仅使用场景中提供的信息，不自行推断
语言风格:
- 保持地域方言一致性（北/中/南方口音）
- 符合年龄、性别、教育程度特征
- 每句话使用地方特色词汇
消息长度: 每条消息1-3句话
情感表达: 通过语言内容体现，不额外描述情绪状态
知识水平: 以普通人的认知水平表达
性格一致性: 在整个对话过程中保持角色性格稳定

常见错误规避

避免自我诊断: 不自行判断病情
避免术语重复: 绝不重复医学术语
避免过度细节: 不提供过于精确的时间、剂量等信息

地域方言示例

北方口音: 使用"dạ" + "ạ"
中部口音: 使用"tui" + "nè/hà/đó"
南方口音: 使用"nè/á/luôn" + "ghê/hết trơn"

输出格式要求

仅提供患者对话内容
保持方言特征一致性
不包含任何解释性文字

搜集汇总

数据集介绍

构建方式

在医疗对话建模领域，Persona数据集通过精心设计的角色扮演框架构建而成。该数据集以标准化医疗场景为基础，要求模拟患者根据预设病情描述与医生进行对话。构建过程中严格遵循语言学规范，确保患者表述符合真实医患交流模式，同时通过地域方言标记和症状描述模板，形成具有临床实用性的对话语料库。

特点

该数据集最显著的特征在于其严格的术语规避机制，要求模拟患者避免使用专业医学术语，转而采用日常口语描述症状。数据集深度整合了越南三大方言区的语言特征，包括北部、中部和南部方言的典型表达方式，并通过对年龄、性别、教育背景等社会变量的控制，构建出具有高度自然性的多维度语言肖像。

使用方法

研究人员可借助该数据集开展医疗对话系统的训练与评估，特别适用于医患交流建模和医疗问答系统开发。使用时应严格遵循数据集中标注的方言分区和对话规则，通过解析场景描述中的病情信息，构建符合真实医疗场景的对话流程。该数据集支持端到端的对话生成任务，同时也可作为评估医疗对话系统自然度和准确性的基准工具。

背景与挑战

背景概述

医疗对话数据集Persona聚焦于医患交互场景的模拟构建，其核心研究问题在于探索非专业患者与专业医生之间的语言沟通障碍。该数据集通过设定具体医疗情境，要求患者角色在避免使用医学术语的前提下描述症状，旨在推动自然语言处理在医疗咨询领域的应用发展。此类数据集对提升医疗对话系统的实用性和可及性具有重要价值，能够为远程医疗服务和智能问诊平台提供关键数据支撑。

当前挑战

该数据集面临双重挑战：在领域问题层面，需准确捕捉医患信息不对称导致的沟通鸿沟，既要避免患者角色误用专业术语，又要保证症状描述的真实性与完整性；在构建过程中，需克服方言特征标注的一致性难题，确保地域语言特征在长对话中的稳定呈现，同时平衡医学准确性与语言自然度之间的张力。

常用场景

经典使用场景

在医疗对话系统研究领域，Persona数据集为构建真实医患对话模型提供了重要支撑。该数据集通过模拟患者角色与医生进行在线交流的场景，要求参与者严格遵循普通患者的语言习惯，避免使用专业医学术语。这种设计使得模型能够学习到真实世界中医患交流的语言模式，特别强调患者对症状的日常化描述方式，为开发更自然、更贴近实际应用的医疗对话系统奠定了数据基础。

解决学术问题

该数据集有效解决了医疗自然语言处理中的专业术语理解鸿沟问题。通过强制要求参与者以普通患者的视角描述症状，避免了传统医疗对话数据中常见的术语重复现象。这种设计使得研究者能够深入探索非专业人士如何描述医疗症状，为开发能够理解日常语言表达的医疗AI系统提供了关键数据支持，推动了医疗对话系统在术语理解和转化方面的研究进展。

衍生相关工作

围绕Persona数据集衍生出多项具有影响力的研究工作。其中包括基于方言一致性的对话生成模型、医疗术语规避机制研究，以及跨区域医疗对话理解系统开发。这些研究不仅深化了对医患交流模式的理解，还推动了医疗自然语言处理技术在真实场景中的应用。相关成果为构建更加智能、人性化的医疗对话系统提供了理论支撑和技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集