five

xingqiang/microbiology-qa-dataset

收藏
Hugging Face2025-12-02 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/xingqiang/microbiology-qa-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
# 🦠 微生物医学QA完整数据集 v2.1 (增强版) ## 📊 数据集概览 | 指标 | 数值 | |------|------| | **总数据量** | 308,971 条 | | **训练集** | 278,073 条 | | **验证集** | 15,448 条 | | **测试集** | 15,450 条 | | **文件大小** | ~330 MB | ## 📁 数据来源 ### 1. LLM生成的教科书QA (15,487条) 高质量专业医学问答,使用Qwen-Plus从权威医学教材中提取: - 热病桑福德抗微生物治疗指南: 3,350条 - 临床微生物学手册(上): 3,789条 - 临床微生物学手册(下): 3,876条 - 哈里森感染病学: 4,472条 ### 2. CSV微生物报告分析QA (22,842条) ✨增强版 来自9,990份真实微生物检测报告: - 物种鉴定与丰度分析 - 病原体检测与临床建议 - 菌群多样性评估 - **增强处理**: 去重1,183条 + 问题多样化(Qwen-Plus生成5种表述变体) ### 3. 过滤的开源医学数据 (270,642条) 从546K条开源数据中筛选微生物相关内容: - PubMedQA: 187,403条 (英文生物医学问答) - MedMCQA: 49,226条 (医学选择题) - CMtMedQA: 27,377条 (中文医患对话) - MedQA: 6,637条 (医学考试题) ## 🔤 数据格式 ```json { "instruction": "问题/指令", "input": "可选的上下文/选项", "output": "答案/回复", "source": "数据来源", "category": "分类标签", "data_source": "llm_textbook/csv_analysis/opensource" } ``` ## 🎯 覆盖主题 - **病原微生物**: 细菌、病毒、真菌、寄生虫 - **感染性疾病**: 肺炎、败血症、尿路感染等 - **抗微生物治疗**: 抗生素、抗病毒药、抗真菌药 - **耐药性**: MRSA、VRE、CRE、ESBL等 - **诊断技术**: 培养、PCR、mNGS、质谱 - **微生物组**: 肠道菌群、菌群失调 ## 📦 使用方式 ```python from datasets import load_dataset dataset = load_dataset('json', data_files={ 'train': 'train.jsonl', 'validation': 'validation.jsonl', 'test': 'test.jsonl' }) print(f"训练集: {len(dataset['train']):,} 条") # 输出: 训练集: 279,138 条 ``` ## 🔧 生成方法 1. **LLM智能提取**: 使用Qwen-Plus对医学教材进行智能分片(500-2500字符),自动生成高质量QA 2. **结构化分析**: 解析微生物检测CSV报告,生成专业分析QA 3. **关键词过滤**: 使用272个中英文微生物领域关键词过滤开源数据 ## 📅 版本信息 - **版本**: 2.1 (增强版) - **生成日期**: 2024-12-02 - **项目**: DeepMicroPath ## 🔄 v2.1 更新内容 - CSV数据去重:移除1,183条完全重复的QA对 - 问题多样化:使用Qwen-Plus为2个高频问题生成5种不同表述变体 - 问题复用率从76.9%降低,提高了数据多样性
提供机构:
xingqiang
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作