epfl-llm/guidelines
收藏Hugging Face2024-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/epfl-llm/guidelines
下载链接
链接失效反馈官方服务:
资源简介:
Clinical Guidelines数据集是一个包含47K临床实践指南的新数据集,来源于17个高质量的在线医学资源。该数据集是Meditron-70B大型语言模型原始训练语料库的重要组成部分。数据集的语言为英语,涵盖了多个医学领域和地理范围。数据集的结构包括id、source、title、clean_text、raw_text、url和overview等字段。数据集的创建过程包括从PDF文档中提取文本、清理和格式化数据、去重和过滤非英语内容。数据集的用途主要是文本生成任务,特别是在医疗领域的自然语言处理应用中。
The Clinical Guidelines Dataset is a novel corpus containing 47,000 clinical practice guidelines, sourced from 17 high-quality online medical resources. It constitutes a critical component of the original training corpus for the Meditron-70B large language model. The dataset is compiled in English, spanning diverse medical disciplines and global geographic contexts. Its structured format includes fields such as id, source, title, clean_text, raw_text, url, and overview. The dataset creation workflow involves extracting text from PDF documents, cleaning and formatting the data, deduplication, and filtering out non-English content. This dataset is primarily intended for text generation tasks, particularly for natural language processing applications in the healthcare domain.
提供机构:
epfl-llm
原始信息汇总
数据集概述
数据集名称
- Clinical Guidelines
数据集描述
- Clinical Guidelines 是一个包含47K临床实践指南的新数据集,来源于17个高质量的在线医疗资源。该数据集是Meditron大型语言模型原始训练语料库的关键组成部分。公开发布的子集包含37K篇文章,这些文章来自允许内容重新分发的9个资源。
数据集特征
- id: 唯一标识符,字符串类型
- source: 来源标签,字符串类型
- title: 文章标题,字符串类型
- clean_text: 清洗和格式化的文章文本,字符串类型
- raw_text: 未处理的抓取文章文本,字符串类型
- url: 文章URL,字符串类型
- overview: 文章的简短摘要或摘要,字符串类型
数据集用途
- 该数据集主要用于文本生成任务,特别是在临床实践指南的上下文中。它可用于训练语言模型和其他医疗保健领域的自然语言处理应用。
数据集来源
- 数据集来源于17个全球认可的医疗实体,包括CCO, CDC, CMA, ICRC, NICE, PubMed, SPOR, WHO和WikiDoc。
数据集处理
- PDF文档通过GROBID转换为文本。数据清洗过程包括排除无关或重复内容,如URL、参考文献、图表分隔符和格式错误的字符。文本标准化为统一格式,所有样本通过标题匹配去重,过滤掉过短或非英文的文章。
数据集限制
- 数据集主要为英文,且偏向于英语区域。虽然包括了WHO和ICRC的低资源设置指南,但仍需进一步工作以涵盖更多样化的背景。此外,指南内容截至2023年8月,需定期重新抓取以更新内容。
数据集许可证
- Common Crawl Foundation Terms of Use
搜集汇总
数据集介绍

构建方式
在医学信息学领域,高质量临床实践指南的整合对于推动循证医学发展至关重要。该数据集通过系统化流程构建,从17个权威医学来源中收集了约4.8万篇临床指南文档。首先利用GROBID工具将PDF文档转换为原始文本,随后针对不同来源设计了定制化的清洗流程,以去除URL、参考文献及格式混乱字符等无关内容。文本经过标准化处理,采用统一的分级标题标记和段落分隔格式,并通过标题匹配进行去重,最终筛选出符合长度与语言要求的英文指南,形成结构化的语料库。
特点
该数据集展现出多维度特征,涵盖全球至机构层级的临床指南,涉及内科、儿科、肿瘤学等多个医学领域。其内容兼具专业性与普及性,既包含面向临床医师的技术性指南,也涵盖患者导向的通俗解读。数据集特别注重资源环境的多样性,收录了高资源、低资源及人道救援场景下的指南文件。文本呈现形式丰富,从简明声明到百余页的详细手册均有涵盖,且通过清洁文本与原始文本的双重字段保留,为研究提供了灵活的数据基础。
使用方法
该数据集主要服务于医疗领域的文本生成任务,可作为大型语言模型医学专项预训练的核心语料。使用者可通过HuggingFace平台直接加载数据集,利用其清洁文本字段进行模型微调,或基于原始文本字段实施定制化清洗流程。在应用过程中需严格遵守各来源的再分发许可协议,避免用于未经临床验证的医疗建议生成系统。建议结合时效性考量,通过附带的开源代码定期更新指南内容,以保持临床知识的时效性与准确性。
背景与挑战
背景概述
临床实践指南作为循证医学的基石,其系统化整合对于提升医疗决策质量具有深远意义。由EPFL LLM团队于2023年构建的Clinical Guidelines数据集,汇集了来自世界卫生组织、美国疾控中心等17个权威医学机构的4.7万份指南文献,旨在为大型语言模型的医学领域预训练提供高质量语料。该数据集作为Meditron-70B模型的核心训练组成部分,通过结构化处理将异构医疗文本转化为标准化格式,显著推动了人工智能在临床辅助决策、医学知识图谱构建等方向的发展,为跨地域医疗资源均衡化提供了数据基础。
当前挑战
该数据集面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面,临床指南需解决医学知识动态演进与地域化差异的复杂性,其文本涵盖从肿瘤学至传染病的多学科体系,且需平衡专业术语与患者可读性之间的表达鸿沟。构建过程中,原始PDF文档的异构格式转换存在信息丢失风险,自动化清洗流程难以完全保留图表、参考文献等非结构化医学证据。同时,数据源以英语为主导语言,对非英语地区医疗实践的覆盖不足,且维基文档等众包内容与传统同行评审指南的质量一致性仍需进一步验证。
常用场景
经典使用场景
在医学人工智能领域,临床指南数据集为大型语言模型的医疗专业化预训练提供了核心语料。该数据集汇集了来自世界卫生组织、美国疾控中心等权威机构的数万篇临床实践指南,其结构化文本蕴含了循证医学的精华。这些经过清洗和格式化的指南文本,能够有效训练模型理解复杂的医学术语、诊断逻辑和治疗建议,从而构建具备专业医学知识基础的智能系统。
实际应用
在实际医疗场景中,基于该数据集训练的模型可辅助开发临床决策支持系统,为医生提供实时的、基于最新指南的诊疗参考。它也能赋能患者教育平台,生成易于理解的健康信息摘要。此外,在公共卫生管理层面,此类技术有助于快速分析和综合全球不同地区的医疗指南,为政策制定和资源分配提供数据驱动的洞察,尤其在应对突发公共卫生事件时展现出潜在价值。
衍生相关工作
该数据集最著名的衍生成果是Meditron-70B大型语言模型,其通过在该数据集上的预训练显著提升了医学领域的专业性能。相关工作进一步推动了医疗领域微调技术、知识检索增强生成以及模型安全性评估的研究。这些探索不仅验证了高质量领域数据对模型能力的关键作用,也催生了针对医疗文本理解、推理和生成任务的一系列创新方法与基准测试。
以上内容由遇见数据集搜集并总结生成



