med-synth-questions-gemma-3-27b-it

Hugging Face2025-09-01 更新2025-09-02 收录

下载链接：

https://huggingface.co/datasets/openmed-community/med-synth-questions-gemma-3-27b-it

下载链接

链接失效反馈

官方服务：

资源简介：

Med Synth Questions — Gemma 3 27B IT是一个包含33,325个合成英文医疗问题的数据集，用于指令微调、检索评估和问题生成研究。数据集由gamino/wiki_medical_terms的文本生成，每个问题都有详细的生成设置和时间戳信息。

创建时间：

2025-08-18

原始信息汇总

数据集概述：Med Synth Questions — Gemma 3 27B IT

基本信息

数据集名称：Med Synth Questions — Gemma 3 27B IT
语言：英语（en）
许可证：GPL-3.0
规模：33,325条数据（10K<n<100K）
标签：医疗、问题生成、仅指令、合成、gemma
任务类别：文本生成

数据集内容

数据集包含33,325条英文医疗问题，每条数据包含以下特征：

input：自包含的医疗问题（字符串）
generation_settings：结构化元数据（字典），包括模型名称、提供者、请求问题数量、生成问题数量、解码参数等
timestamp：ISO-8601格式的创建时间（字符串）

数据来源

源文本：gamino/wiki_medical_terms数据集（约6,800个医疗术语的Wikipedia文本）
生成模型：google/gemma-3-27b-it（Gemma 3指令调优版本）

预期用途

指令微调支架（生成答案/反馈）
检索和评估（作为RAG/QA系统的领域特定查询库）
问题生成研究（研究提示风格、难度和主题覆盖）

使用限制

仅包含问题，不提供真实答案
内容源自网络维基百科文本，可能存在偏见、空白或过时信息
非医疗建议，不可用于临床决策

加载方式

python from datasets import load_dataset ds = load_dataset("openmed-community/med-synth-questions-gemma-3-27b-it", split="train")

许可信息

数据集遵循GPL-3.0许可证
使用Gemma 3输出内容需遵守Google的Gemma使用条款和禁止使用政策

引用要求

使用本数据集需引用：

gamino/wiki_medical_terms数据集
google/gemma-3-27b-it模型

免责声明

本资源仅供研究和教育使用，非医疗建议来源。使用时需遵守相关法律、伦理和平台/模型条款。

搜集汇总

数据集介绍

构建方式

在医学知识自动化抽取领域，该数据集基于gamino/wiki_medical_terms的医学术语文本库，采用google/gemma-3-27b-it指令微调模型进行规模化问题生成。通过结构化生成设置控制输出质量，每项问题均附带完整的参数元数据与时间戳，确保生成过程的可追溯性与可复现性。最终形成包含33,325条英文医学问题的指令数据集，严格遵循GPL-3.0许可协议。

特点

该数据集呈现三大核心特征：其问题内容覆盖广泛的医学术语体系，兼具专业深度与语言多样性；每条数据均包含完整的生成参数元数据，为研究提供透明的模型行为分析基础；采用纯指令格式设计，无预设答案标签，支持灵活的下游任务适配。时间戳与模型参数的标准化记录进一步增强了数据集的科研价值与可验证性。

使用方法

用户可通过HuggingFace datasets库直接加载数据集，获取结构化的问题文本及元数据。该资源适用于医学问答系统的指令微调支架构建，可作为检索增强生成系统的领域特异性查询库，亦支持问题生成技术的比较研究。使用时需注意遵守Gemma模型使用条款及GPL-3.0许可协议，且应进行医学内容有效性验证以避免知识滞后性风险。

背景与挑战

背景概述

医学教育领域长期面临着高质量训练数据稀缺的挑战，特别是在构建大规模医学问答数据集方面。openmed-community研究团队于2025年基于Gemma 3 27B指令调优模型，创建了包含33,325个英文医学问题的合成数据集。该数据集源自gamino/wiki_medical_terms知识库，通过先进的大语言模型技术自动生成医学领域的问题样本，为医学自然语言处理研究提供了重要的数据支撑。这一创新性工作显著推动了医学问答系统、检索增强生成技术以及医学教育智能化的发展进程。

当前挑战

该数据集致力于解决医学领域问答系统面临的数据稀缺性和多样性挑战，特别是在构建高质量医学问题库方面存在显著困难。数据集构建过程中面临多重技术挑战：需要确保生成问题的医学准确性和时效性，避免传播错误或过时的医学信息；必须处理源文本中可能存在的偏见和知识缺口；还需维持问题难度和主题覆盖的平衡性。此外，合成数据的质量控制、模型参数的可复现性以及符合医学伦理规范的要求，都构成了数据集构建过程中的核心难点。

常用场景

经典使用场景

在医学教育智能化转型的背景下，该数据集为构建自适应医学问答系统提供了核心训练素材。其生成的数万条专业医学问题可有效模拟真实考核场景，广泛应用于医学知识检索系统的查询增强、智能辅导系统的对话生成，以及医学语言模型的指令微调过程，显著提升模型对复杂医学术语和临床推理的理解能力。

实际应用

实际应用中，该数据集可作为医学知识图谱的动态查询引擎，嵌入在线医疗教育平台的智能答疑模块。医疗机构可借助其构建标准化医学考试题库，医药企业则用于培训产品的智能客服系统。此外，在跨语言医学信息检索场景中，这些结构化问题能为多语言医学AI系统提供高质量的锚点数据。

衍生相关工作

基于该数据集衍生的经典工作包括医学检索增强生成（RAG）系统的评估基准构建、多模态医学问答模型的对比研究，以及自动化医学试题生成管道的开发。这些工作显著提升了医学AI在诊断辅助决策、继续医学教育等垂直领域的应用深度，为后续医学大语言模型的专业化评测提供了重要参照体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集