aisc-team-a1/guidelines
收藏临床指南数据集概述
数据集基本信息
- 数据集名称: Clinical Guidelines
- 许可证: Common Crawl Foundation Terms of Use
- 任务类别: 文本生成
- 语言: 英语
- 大小类别: 10K<n<100K
- 标签: 医疗, 健康
- 数据集信息:
- 特征:
id: 字符串source: 字符串title: 字符串clean_text: 字符串raw_text: 字符串url: 字符串overview: 字符串
- 分割:
train: 37970个样本, 865223621字节
- 下载大小: 424262411字节
- 数据集大小: 865223621字节
- 配置:
default: 训练数据路径为data/train-*
- 特征:
数据集详细信息
- 语言: 仅英语
- 知识截止日期: 2023年8月
数据集创建
创建动机
该数据集旨在为大型语言模型(LLMs)的医学训练提供高质量的临床实践指南(CPGs)集合。数据集包含48,096篇文章,来自17个全球公认的医疗来源,涵盖多个医疗领域和地理区域。
源数据
临床实践指南是经过严格研究的框架,旨在指导医疗从业者和患者基于最新证据做出诊断、治疗和管理决策。这些指南通过专家之间的协作共识编制,以最大限度地提高效益,并考虑实际问题,如可用资源和环境。
数据收集和处理
PDF文档通过GROBID转换为文本。提取原始文本后,通过特定过程清理数据,排除无关或重复内容,如URL、参考文献、图表分隔符和不规则字符。文本被标准化为统一格式,并进行去重和过滤。
个人和敏感信息
文章为公开可访问,不包含个人或敏感信息。
数据集结构
每个数据集行代表一个临床实践指南文章,包含以下字段:
| 字段 | 描述 |
|---|---|
id |
文章的唯一标识符 |
source |
来源标签 (cco, cdc, cma, icrc, nice, spor, who 或 wikidoc) |
title |
文章标题 |
url |
文章URL |
raw_text |
未处理的抓取文章文本 |
clean_text |
清理和格式化的文章文本 |
overview |
文章的简短摘要或摘要 |
使用
该数据集适用于与临床实践指南相关的文本生成任务,可用于训练语言模型和其他自然语言处理应用。
超出范围的使用
- 重新分发: 使用内容前请检查重新分发许可。
- 恶意使用: 不支持任何可能有害的使用。
偏差、风险和限制
- 同行评审质量: 大部分来源由国际认可的专业协会验证,但Wikidoc包含众包内容。
- 代表性: 该语料库为英语,过度代表英语区域。
- 时间范围: 指南不断更新,这些代表2023年8月的快照。
建议
鼓励用户帮助构建更多语言和地理区域的高质量同行评审临床实践指南语料库,并注意其当前的时间和地理范围限制。
致谢
感谢所有提供开放访问临床实践指南的社会。鼓励临床实践指南社区继续提供这些文档,并确保其易于使用。
作者
- 策展: Mary-Anne Hartley
- 抓取: Antoine Bonnet, Alexandre Sallinen, Igor Krawczuk, Kyle Matoba
- 清理: Antoine Bonnet, Alexandre Sallinen
引用
使用该临床指南语料库时,请引用相关工作:
@misc{chen2023meditron70b, title={MEDITRON-70B: Scaling Medical Pretraining for Large Language Models}, author={Zeming Chen and Alejandro Hernández-Cano and Angelika Romanou and Antoine Bonnet and Kyle Matoba and Francesco Salvi and Matteo Pagliardini and Simin Fan and Andreas Köpf and Amirkeivan Mohtashami and Alexandre Sallinen and Alireza Sakhaeirad and Vinitra Swamy and Igor Krawczuk and Deniz Bayazit and Axel Marmet and Syrielle Montariol and Mary-Anne Hartley and Martin Jaggi and Antoine Bosselut}, year={2023}, eprint={2311.16079}, archivePrefix={arXiv}, primaryClass={cs.CL} } @software{epfmedtrn, author = {Zeming Chen and Alejandro Hernández-Cano and Angelika Romanou and Antoine Bonnet and Kyle Matoba and Francesco Salvi and Matteo Pagliardini and Simin Fan and Andreas Köpf and Amirkeivan Mohtashami and Alexandre Sallinen and Alireza Sakhaeirad and Vinitra Swamy and Igor Krawczuk and Deniz Bayazit and Axel Marmet and Syrielle Montariol and Mary-Anne Hartley and Martin Jaggi and Antoine Bosselut}, title = {MediTron-70B: Scaling Medical Pretraining for Large Language Models}, month = November, year = 2023, url = {https://github.com/epfLLM/meditron} }



