ticoAg/ChatMed_Consult_Dataset

Name: ticoAg/ChatMed_Consult_Dataset
Creator: ticoAg
Published: 2023-08-18 15:39:11
License: 暂无描述

Hugging Face2023-08-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ticoAg/ChatMed_Consult_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ChatMed-Dataset是一个包含110,113个中文医疗查询-响应对的数据集，查询来自多个在线医疗咨询网站，反映了真实世界的医疗需求，响应由OpenAI的GPT-3.5引擎生成。该数据集旨在为中文大型语言模型注入医疗知识，并支持自动医疗咨询任务的微调。数据集以json-line格式存储，便于使用。

ChatMed-Dataset is a dataset of 110,113 medical query-response pairs (in Chinese) generated by OpenAIs GPT-3.5 engine. The queries are crawled from several online medical consultation sites, reflecting the medical needs in the real world. The responses are generated by the OpenAI engine. This dataset is designated to inject medical knowledge into Chinese large language models. The dataset currently only includes a training set and will continue to be updated in the future.

提供机构：

ticoAg

原始信息汇总

ChatMed-Dataset 数据集概述

数据集描述

数据集摘要

ChatMed-Dataset 是一个包含 110,113 对医疗问答数据集（中文），由 OpenAI 的 GPT-3.5 引擎生成。问答对来源于多个在线医疗咨询网站，反映了现实世界中的医疗需求。该数据集旨在为中文大型语言模型注入医疗知识。

支持的任务和排行榜

ChatMed-Dataset 设计用于微调预训练的语言模型，以更好地执行自动医疗咨询。

语言

ChatMed-Dataset 中的数据为中文（zh）。

数据集结构

数据实例

数据集采用 json-line 格式，使用方便。示例如下：

json { "query": "你好，视神经萎缩，黄斑变性。怎样缓解，及日常注意事项。谢谢。", "response": "视神经萎缩和黄斑变性是两种不同的疾病，需要分别进行治疗。

视神经萎缩是指视神经逐渐受损，导致视力逐渐减退，常见的治疗方法包括：

1.药物治疗：如促进视神经细胞再生的药物，改善视网膜供血的药物等。

2.手术治疗：如视神经萎缩的手术治疗可以通过神经移植、修复和再生等手术方式来缓解症状。

3.康复训练：通过视力训练等康复训练可以帮助患者恢复视力。

黄斑变性则是指黄斑区域受损，导致中央视力减退，常见的治疗方法包括：

1.药物治疗：如抗氧化剂、维生素等可以缓解症状。

2.手术治疗：如黄斑脱离手术等可以恢复视力。

3.日常注意事项：保持良好的生活习惯，如戒烟、控制血压、血糖等，避免暴晒和过度用眼，保持充足的睡眠和均衡的饮食等。

需要根据具体情况选择合适的治疗方案，建议您咨询专业医生进行诊断和治疗。" }

数据字段

数据字段如下：

query: 来自网络的真实医疗查询。
response: 由 OpenAI GPT-3.5 引擎生成的回答。

数据分割

	train
ChatMed-Dataset	110,113

数据集创建

数据集的考虑因素

数据集的社会影响

我们相信，发布上述资产将使学术界能够对大型语言模型如何响应真实医疗查询进行受控的科学研究。更多社会影响将很快讨论！

偏见讨论

[更多信息待补充]

其他已知限制

ChatMed-Dataset 数据由语言模型 (GPT-3.5) 生成，不可避免地包含一些错误或偏见。我们鼓励用户谨慎使用此数据，并提出新的方法来过滤或改进不完美之处。

附加信息

许可证信息

数据集在 Creative Commons NonCommercial (CC BY-NC 4.0) 下可用。

引用信息

@misc{alpaca, author = {Wei Zhu }, title = {ChatMed-Dataset: An GPT generated medical query-response datasets for medcial large language models}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/michael-wzhu/ChatMed}}, }

搜集汇总

数据集介绍

构建方式

ChatMed-Dataset的构建采用从互联网上抓取真实医疗咨询问题，并由OpenAI的GPT-3.5引擎生成响应的方式。该数据集旨在将医疗知识融入至中文大型语言模型中，通过精心筛选和优化互联网上的医疗对话，构建出一个既反映实际医疗需求又具备高质量回答的数据库。

特点

该数据集的特点在于其内容全部为中文，包含110,113个医疗咨询问题及其对应的响应。这些数据不仅来源于真实的用户需求，而且通过先进的GPT-3.5技术生成的回答，使得数据集在多样性和准确性上具有显著优势。此外，数据集的持续更新保证了其时效性和规模的不断增长。

使用方法

用户可以通过访问HuggingFace平台上的ChatMed-Dataset页面来获取数据集。数据以json-line格式存储，便于处理和使用。用户可以直接加载数据进行模型训练，或是进一步的数据分析，以优化大型语言模型在自动医疗咨询领域的表现。

背景与挑战

背景概述

ChatMed-Dataset是一个由OpenAI的GPT-3.5引擎生成的110,113个中文医疗咨询问答对组成的数据库。该数据集由Wei Zhu负责，旨在为中文大型语言模型注入医学知识，以改善自动医疗咨询的性能。该数据集的构建，响应了中文垂直领域中AGI数据集的稀缺性，为学术研究和模型训练提供了重要资源。

当前挑战

尽管ChatMed-Dataset为医疗咨询领域提供了宝贵的资源，但在使用过程中仍面临一些挑战。首先，数据集由语言模型生成，可能包含错误或偏差，这要求用户在使用时需保持谨慎。其次，数据集的构建过程中，涉及数据收集、注释以及敏感信息的处理，这些环节需要确保数据的准确性和隐私保护。最后，数据集的多样性和代表性也是其面临的挑战之一，需不断更新和完善以增强其适用性。

常用场景

经典使用场景

在医疗咨询领域，ChatMed-Dataset作为一款重要的数据集，其经典使用场景主要在于为中文大型语言模型注入医学知识，进而优化自动医疗咨询系统的响应质量。通过该数据集的细致调校，模型能够更好地模拟医生与患者之间的对话，为用户提供专业且贴合实际需求的医疗建议。

衍生相关工作

ChatMed-Dataset的推出促进了相关领域的深入研究，衍生出了一系列经典工作。这些工作不仅涉及对数据集本身的改进和质量提升，还包括基于该数据集的模型性能评估、医疗知识图谱构建以及多模态医疗信息处理等多个方向，极大地推动了医疗人工智能的发展。

数据集最近研究