five

aisc-team-a1/guidelines

收藏
Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/aisc-team-a1/guidelines
下载链接
链接失效反馈
官方服务:
资源简介:
Clinical Guidelines数据集是一个包含47K临床实践指南的新数据集,这些指南来自17个高质量的在线医疗源。该数据集是Meditron大型语言模型(LLM)原始训练语料库的关键组成部分。我们公开发布了来自9个允许内容重新分发的源的37K文章子集,包括CCO、CDC、CMA、ICRC、NICE、PubMed、SPOR、WHO和WikiDoc。数据集主要用于文本生成任务,特别是在医疗领域的自然语言处理应用中。数据集的处理包括从PDF文档中提取文本、清理和格式化文本、去重和过滤非英语或过短的文章。数据集的结构包括每个指南文章的ID、来源、标题、URL、原始文本、清理后的文本和概述。

Clinical Guidelines数据集是一个包含47K临床实践指南的新数据集,这些指南来自17个高质量的在线医疗源。该数据集是Meditron大型语言模型(LLM)原始训练语料库的关键组成部分。我们公开发布了来自9个允许内容重新分发的源的37K文章子集,包括CCO、CDC、CMA、ICRC、NICE、PubMed、SPOR、WHO和WikiDoc。数据集主要用于文本生成任务,特别是在医疗领域的自然语言处理应用中。数据集的处理包括从PDF文档中提取文本、清理和格式化文本、去重和过滤非英语或过短的文章。数据集的结构包括每个指南文章的ID、来源、标题、URL、原始文本、清理后的文本和概述。
提供机构:
aisc-team-a1
原始信息汇总

临床指南数据集概述

数据集基本信息

  • 数据集名称: Clinical Guidelines
  • 许可证: Common Crawl Foundation Terms of Use
  • 任务类别: 文本生成
  • 语言: 英语
  • 大小类别: 10K<n<100K
  • 标签: 医疗, 健康
  • 数据集信息:
    • 特征:
      • id: 字符串
      • source: 字符串
      • title: 字符串
      • clean_text: 字符串
      • raw_text: 字符串
      • url: 字符串
      • overview: 字符串
    • 分割:
      • train: 37970个样本, 865223621字节
    • 下载大小: 424262411字节
    • 数据集大小: 865223621字节
    • 配置:
      • default: 训练数据路径为 data/train-*

数据集详细信息

  • 语言: 仅英语
  • 知识截止日期: 2023年8月

数据集创建

创建动机

该数据集旨在为大型语言模型(LLMs)的医学训练提供高质量的临床实践指南(CPGs)集合。数据集包含48,096篇文章,来自17个全球公认的医疗来源,涵盖多个医疗领域和地理区域。

源数据

临床实践指南是经过严格研究的框架,旨在指导医疗从业者和患者基于最新证据做出诊断、治疗和管理决策。这些指南通过专家之间的协作共识编制,以最大限度地提高效益,并考虑实际问题,如可用资源和环境。

数据收集和处理

PDF文档通过GROBID转换为文本。提取原始文本后,通过特定过程清理数据,排除无关或重复内容,如URL、参考文献、图表分隔符和不规则字符。文本被标准化为统一格式,并进行去重和过滤。

个人和敏感信息

文章为公开可访问,不包含个人或敏感信息。

数据集结构

每个数据集行代表一个临床实践指南文章,包含以下字段:

字段 描述
id 文章的唯一标识符
source 来源标签 (cco, cdc, cma, icrc, nice, spor, whowikidoc)
title 文章标题
url 文章URL
raw_text 未处理的抓取文章文本
clean_text 清理和格式化的文章文本
overview 文章的简短摘要或摘要

使用

该数据集适用于与临床实践指南相关的文本生成任务,可用于训练语言模型和其他自然语言处理应用。

超出范围的使用

  • 重新分发: 使用内容前请检查重新分发许可。
  • 恶意使用: 不支持任何可能有害的使用。

偏差、风险和限制

  • 同行评审质量: 大部分来源由国际认可的专业协会验证,但Wikidoc包含众包内容。
  • 代表性: 该语料库为英语,过度代表英语区域。
  • 时间范围: 指南不断更新,这些代表2023年8月的快照。

建议

鼓励用户帮助构建更多语言和地理区域的高质量同行评审临床实践指南语料库,并注意其当前的时间和地理范围限制。

致谢

感谢所有提供开放访问临床实践指南的社会。鼓励临床实践指南社区继续提供这些文档,并确保其易于使用。

作者

  • 策展: Mary-Anne Hartley
  • 抓取: Antoine Bonnet, Alexandre Sallinen, Igor Krawczuk, Kyle Matoba
  • 清理: Antoine Bonnet, Alexandre Sallinen

引用

使用该临床指南语料库时,请引用相关工作:

@misc{chen2023meditron70b, title={MEDITRON-70B: Scaling Medical Pretraining for Large Language Models}, author={Zeming Chen and Alejandro Hernández-Cano and Angelika Romanou and Antoine Bonnet and Kyle Matoba and Francesco Salvi and Matteo Pagliardini and Simin Fan and Andreas Köpf and Amirkeivan Mohtashami and Alexandre Sallinen and Alireza Sakhaeirad and Vinitra Swamy and Igor Krawczuk and Deniz Bayazit and Axel Marmet and Syrielle Montariol and Mary-Anne Hartley and Martin Jaggi and Antoine Bosselut}, year={2023}, eprint={2311.16079}, archivePrefix={arXiv}, primaryClass={cs.CL} } @software{epfmedtrn, author = {Zeming Chen and Alejandro Hernández-Cano and Angelika Romanou and Antoine Bonnet and Kyle Matoba and Francesco Salvi and Matteo Pagliardini and Simin Fan and Andreas Köpf and Amirkeivan Mohtashami and Alexandre Sallinen and Alireza Sakhaeirad and Vinitra Swamy and Igor Krawczuk and Deniz Bayazit and Axel Marmet and Syrielle Montariol and Mary-Anne Hartley and Martin Jaggi and Antoine Bosselut}, title = {MediTron-70B: Scaling Medical Pretraining for Large Language Models}, month = November, year = 2023, url = {https://github.com/epfLLM/meditron} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作