PG-Bench

github2025-03-03 更新2025-02-26 收录

下载链接：

https://github.com/KJOrigin/PG-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

PG-Bench数据集包含不同专科医院的患者-医生对话指导数据

The PG-Bench Dataset contains patient-doctor dialogue instruction data from different specialized hospitals.

创建时间：

2025-02-16

原始信息汇总

CCPG Benchmark (PG-Bench) & KEGA 数据集概述

数据集基本信息

数据集名称：CCPG Benchmark (PG-Bench) & KEGA
数据集用途：用于推进基于对话的中文患者引导研究
相关论文："Advancing Conversation-based Chinese Patient Guidance with A New Benchmark and Knowledge-Evolvable Guidance Assistant"

数据集内容

PG-Bench Dataset

General.jsonl：综合医院患者-医生对话引导数据集
Gynecological.jsonl：妇科专科医院患者-医生对话引导数据集
Pediatric.jsonl：儿科专科医院患者-医生对话引导数据集
Stomatological.jsonl：口腔专科医院患者-医生对话引导数据集
TCM.jsonl：中医专科医院患者-医生对话引导数据集

完整数据集访问

完整数据集名称：All_Datasets.jsonl
访问方式：需申请获取

框架与方法

KEGA Framework：知识可进化引导助手框架

使用说明

安装必要包：pip install -r requirements.txt
安装Swift以部署模型并使用Python运行代码

贡献与建议

欢迎贡献和建议

搜集汇总

数据集介绍

构建方式

CCPG Benchmark (PG-Bench)数据集的构建，是基于医疗对话指导的特定需求，精心挑选并构建了五个不同专科医院的病人-医生对话数据集，分别为综合医院、妇科医院、儿科医院、口腔医院及中医医院。各数据集均以.jsonl格式存储，确保了数据格式的统一性与易用性。

特点

该数据集的特点在于其领域专业性，覆盖了多个专科医院的实际对话场景，且提供了全面的数据集——All_Datasets.jsonl，可供研究者在获得许可后使用。数据集的构建旨在推动对话系统在医疗指导领域的应用研究，具有极高的实用价值和研究价值。

使用方法

使用该数据集，首先需要安装必要的Python包，通过执行`pip install -r requirements.txt`命令完成。随后，需安装Swift以部署模型，并使用Python运行代码。详细的安装与使用指南，可参照数据集GitHub页面的说明文档进行。

背景与挑战

背景概述

CCPG Benchmark (PG-Bench)数据集，全称为Chinese Conversation-based Patient Guidance Benchmark，是一项专注于中文医疗对话引导的开放源代码数据集。该数据集的创建旨在推进基于对话的中文患者指导研究，其构建基于2023以前的相关研究和实践。该数据集由多个子数据集组成，涵盖了综合医院、妇科医院、儿科医院、口腔医院以及中医医院等多个专科领域的患者-医生对话。PG-Bench的创建，不仅丰富了中文自然语言处理领域的数据资源，也为相关研究提供了新的视角和方法论，对于促进医疗AI的智能化、精准化具有显著的研究价值和临床应用潜力。

当前挑战

PG-Bench数据集在构建和应用过程中面临着多项挑战。首先，多样化的医疗场景和专业知识要求对话系统具备高度的适应性和准确性，这对数据标注和质量控制提出了高要求。其次，构建全面且具有代表性的数据集需要克服数据收集和共享的障碍，涉及隐私保护、数据安全等问题。此外，数据集在解决领域问题，如提高医疗对话引导的准确性和有效性方面，还需不断进行优化和迭代。KEGA框架的提出，虽为数据集的应用提供了方法论支持，但其部署和效果验证亦是需要进一步研究和克服的挑战。

常用场景

经典使用场景

在自然语言处理与医疗健康交叉领域，CCPG Benchmark (PG-Bench) 数据集的典型应用场景在于构建与评估面向患者指导的对话系统。该数据集包含了不同专科医院的病人-医生对话记录，为研究者和开发者提供了丰富的文本资源，以训练和测试对话系统在真实医疗场景下的表现与适应性。

衍生相关工作

基于CCPG Benchmark (PG-Bench) 数据集，研究者们已经开展了一系列相关工作，包括构建知识演化的医疗对话系统KEGA，以及开发用于评估对话系统性能的多维度评价指标。这些衍生工作进一步推动了医疗健康领域对话系统的技术进步和临床应用的深化。

数据集最近研究