Debbevi/medical_dialogue_swe_experiment1
收藏Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Debbevi/medical_dialogue_swe_experiment1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个使用Llama 3 70B生成的瑞典语医疗对话合成数据集。对话内容并非理想化的沟通,而是试图捕捉医疗环境中可能发生的真实对话。患者的个性基于Ringwald等人(2022)的心理测量数据随机抽样生成,假设为不相关的正态分布。英语对话在后期处理中使用Spacy分词器和phunspell进行了过滤。对话中的动作(如检查或评估实验室测试)用括号标记。数据集存在一些局限性,如偶尔的拼写错误、非瑞典语词汇、医生用词过于技术化、症状或诊断的分布不符合流行病学频率、对话长度较短以及部分对话显得刻意。
该数据集是一个使用Llama 3 70B生成的瑞典语医疗对话合成数据集。对话内容并非理想化的沟通,而是试图捕捉医疗环境中可能发生的真实对话。患者的个性基于Ringwald等人(2022)的心理测量数据随机抽样生成,假设为不相关的正态分布。英语对话在后期处理中使用Spacy分词器和phunspell进行了过滤。对话中的动作(如检查或评估实验室测试)用括号标记。数据集存在一些局限性,如偶尔的拼写错误、非瑞典语词汇、医生用词过于技术化、症状或诊断的分布不符合流行病学频率、对话长度较短以及部分对话显得刻意。
提供机构:
Debbevi
原始信息汇总
数据集概述
数据集名称
Synthetic dataset of medical encounters in Swedish
数据集生成
- 使用Llama 3 70B生成
- 包含模拟的瑞典医疗场景对话
数据集特点
- 患者个性基于Ringwald, W. R. et al (2022)的研究,采用随机采样和假设的正态分布
- 英语对话经过Spacy tokenizer和phunspell的后处理过滤
- 医疗行动如检查或评估实验室测试,用括号标记
数据集限制
- 偶尔的拼写错误,难以自动区分医疗术语和错误的瑞典语
- 偶尔出现非瑞典语词汇
- 医生角色设定为专业态度严谨,用词常过于技术化
- 症状或诊断的分布不符合流行病学频率
- 对话长度短于实际医疗访问
- 部分对话在表面有效性评估中显得不自然



