five

Debbevi/medical_dialogue_swe_experiment1

收藏
Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Debbevi/medical_dialogue_swe_experiment1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个使用Llama 3 70B生成的瑞典语医疗对话合成数据集。对话内容并非理想化的沟通,而是试图捕捉医疗环境中可能发生的真实对话。患者的个性基于Ringwald等人(2022)的心理测量数据随机抽样生成,假设为不相关的正态分布。英语对话在后期处理中使用Spacy分词器和phunspell进行了过滤。对话中的动作(如检查或评估实验室测试)用括号标记。数据集存在一些局限性,如偶尔的拼写错误、非瑞典语词汇、医生用词过于技术化、症状或诊断的分布不符合流行病学频率、对话长度较短以及部分对话显得刻意。

该数据集是一个使用Llama 3 70B生成的瑞典语医疗对话合成数据集。对话内容并非理想化的沟通,而是试图捕捉医疗环境中可能发生的真实对话。患者的个性基于Ringwald等人(2022)的心理测量数据随机抽样生成,假设为不相关的正态分布。英语对话在后期处理中使用Spacy分词器和phunspell进行了过滤。对话中的动作(如检查或评估实验室测试)用括号标记。数据集存在一些局限性,如偶尔的拼写错误、非瑞典语词汇、医生用词过于技术化、症状或诊断的分布不符合流行病学频率、对话长度较短以及部分对话显得刻意。
提供机构:
Debbevi
原始信息汇总

数据集概述

数据集名称

Synthetic dataset of medical encounters in Swedish

数据集生成

  • 使用Llama 3 70B生成
  • 包含模拟的瑞典医疗场景对话

数据集特点

  • 患者个性基于Ringwald, W. R. et al (2022)的研究,采用随机采样和假设的正态分布
  • 英语对话经过Spacy tokenizer和phunspell的后处理过滤
  • 医疗行动如检查或评估实验室测试,用括号标记

数据集限制

  • 偶尔的拼写错误,难以自动区分医疗术语和错误的瑞典语
  • 偶尔出现非瑞典语词汇
  • 医生角色设定为专业态度严谨,用词常过于技术化
  • 症状或诊断的分布不符合流行病学频率
  • 对话长度短于实际医疗访问
  • 部分对话在表面有效性评估中显得不自然
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作