five

michaelwzhu/ChatMed_Consult_Dataset|医疗咨询数据集|自然语言处理数据集

收藏
hugging_face2023-05-05 更新2024-03-04 收录
医疗咨询
自然语言处理
下载链接:
https://hf-mirror.com/datasets/michaelwzhu/ChatMed_Consult_Dataset
下载链接
链接失效反馈
资源简介:
ChatMed-Dataset是一个包含110,113个中文医疗查询-响应对的数据集,这些对由OpenAI的GPT-3.5引擎生成。查询来自多个在线医疗咨询网站,反映了真实世界的医疗需求。该数据集旨在为中文大型语言模型注入医疗知识,并支持自动医疗咨询任务的微调。数据集以json-line格式提供,便于使用。
提供机构:
michaelwzhu
原始信息汇总

数据集概述

数据集描述

  • 名称: ChatMed-Dataset
  • 语言: 中文 (zh)
  • 许可: Creative Commons NonCommercial (CC BY-NC 4.0)
  • 标签: 医疗咨询, 微调
  • 任务类别: 文本生成

数据集总结

ChatMed-Dataset 包含110,113对医疗查询-响应配对,这些配对使用OpenAI的GPT-3.5引擎生成。查询数据从多个在线医疗咨询网站爬取,反映了真实世界的医疗需求。响应由OpenAI引擎生成,旨在为中文大型语言模型注入医疗知识。

支持的任务和排行榜

该数据集设计用于微调预训练语言模型,以在自动医疗咨询中表现更佳。

数据集结构

数据实例

数据集采用json-line格式,便于使用。示例数据如下:

json { "query": "你好,视神经萎缩,黄斑变性。怎样缓解,及日常注意事项。谢谢。", "response": "视神经萎缩和黄斑变性是两种不同的疾病,需要分别进行治疗。

视神经萎缩是指视神经逐渐受损,导致视力逐渐减退,常见的治疗方法包括:

1.药物治疗:如促进视神经细胞再生的药物,改善视网膜供血的药物等。

2.手术治疗:如视神经萎缩的手术治疗可以通过神经移植、修复和再生等手术方式来缓解症状。

3.康复训练:通过视力训练等康复训练可以帮助患者恢复视力。

黄斑变性则是指黄斑区域受损,导致中央视力减退,常见的治疗方法包括:

1.药物治疗:如抗氧化剂、维生素等可以缓解症状。

2.手术治疗:如黄斑脱离手术等可以恢复视力。

3.日常注意事项:保持良好的生活习惯,如戒烟、控制血压、血糖等,避免暴晒和过度用眼,保持充足的睡眠和均衡的饮食等。

需要根据具体情况选择合适的治疗方案,建议您咨询专业医生进行诊断和治疗。" }

数据字段

  • query: 来自网络的真实医疗查询。
  • response: 由OpenAI GPT-3.5引擎生成的响应。

数据分割

train
ChatMed-Dataset 110,113

使用数据的考虑

数据集的社会影响

该数据集的发布旨在使学术界能够对大型语言模型如何响应真实医疗查询进行科学研究。

数据集的已知限制

数据集由语言模型(GPT-3.5)生成,可能包含错误或偏见。建议用户谨慎使用,并提出新的方法来过滤或改进这些不完美之处。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ChatMed-Dataset数据集的构建,是基于互联网上110,113个医疗问诊问题,利用OpenAI的GPT-3.5引擎生成相应的回答。该数据集旨在为中文大型语言模型注入医学知识,通过对真实世界医疗需求的反映,以及对互联网医生与患者回答的筛选甄别,逐步构建出质量更优的数据集。
使用方法
用户可以通过访问HuggingFace的官方仓库来获取ChatMed-Dataset数据集。该数据集采用json-line格式存储,便于处理和使用。用户可以直接读取数据实例中的`query`和`response`字段,分别获取医疗咨询问题和对应的回答,进而用于模型训练、微调或评估等任务。
背景与挑战
背景概述
在人工智能技术不断发展的当下,医疗咨询领域的人工智能应用日益受到重视。ChatMed-Dataset,作为一款专业的中文医疗对话数据集,由Wei Zhu于2023年创建并维护。该数据集旨在通过注入医疗知识,提升中文大型语言模型在自动医疗咨询方面的表现。它汇集了110,113条真实的医疗咨询问答对,这些问答对通过OpenAI的GPT-3.5引擎生成,反映了现实世界中用户在医疗咨询方面的多样化需求。该数据集的出现,不仅丰富了中文垂直领域的AGI数据集资源,也为学术研究提供了重要的基础数据,对于推动医疗人工智能的发展具有重要意义。
当前挑战
尽管ChatMed-Dataset在构建时采用了先进的GPT-3.5引擎生成回答,但数据集构建过程中仍面临诸多挑战。首先,数据质量是关键,由于回答由模型生成,可能包含错误或偏见,因此需要进一步的筛选和优化。其次,数据集的多样性和代表性也是重要考量,需确保数据能够覆盖广泛的医疗场景和用户需求。此外,数据集在个人隐私保护、数据标注的准确性以及避免社会偏见等方面也需进行深入研究和处理。
常用场景
经典使用场景
在当前人工智能技术飞速发展的时代背景下,ChatMed-Dataset应运而生,该数据集最经典的使用场景是作为预训练语言模型的微调数据,旨在提升模型在自动医疗咨询领域的表现,以满足实际医疗咨询中患者与医生交流的需求。
解决学术问题
ChatMed-Dataset的构建解决了中文垂直领域AGI数据集匮乏的问题,为学术研究提供了宝贵的资源,有助于研究人员深入探索大型语言模型在医疗咨询场景中的应用,进一步推动医学自然语言处理技术的发展。
实际应用
在实践应用方面,该数据集可以被用来训练医疗聊天机器人,为患者提供实时、准确的医疗咨询,减轻医生的工作负担,提高医疗服务效率,对医疗保健行业产生积极影响。
数据集最近研究
最新研究方向
在医疗咨询领域,ChatMed-Dataset作为一款由GPT-3.5生成的中文医疗问答数据集,正引领研究走向深入探索人工智能在医疗领域的应用潜能。该数据集不仅为模型提供了丰富的垂直领域知识,更通过模拟真实世界的医疗咨询场景,推动了自动医疗咨询系统的发展。目前,研究者正致力于利用此数据集优化预训练语言模型,以实现更精准、高效的医疗问答响应,这对于提升医疗服务质量,满足患者个性化需求具有显著影响和意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录