aisc-team-b1/guidelines
收藏Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/aisc-team-b1/guidelines
下载链接
链接失效反馈官方服务:
资源简介:
Clinical Guidelines数据集是一个包含47K临床实践指南的新数据集,这些指南来自17个高质量的在线医学资源。该数据集是Meditron-70B大型语言模型原始训练语料库的重要组成部分。我们公开发布了来自9个允许内容重新分发的资源的37K文章子集,这些资源包括CCO、CDC、CMA、ICRC、NICE、PubMed、SPOR、WHO和WikiDoc。数据集的语言为英语,涵盖了多个医学领域和地理范围。数据集的创建目的是为医学领域的自然语言处理任务提供高质量的文本数据。
Clinical Guidelines数据集是一个包含47K临床实践指南的新数据集,这些指南来自17个高质量的在线医学资源。该数据集是Meditron-70B大型语言模型原始训练语料库的重要组成部分。我们公开发布了来自9个允许内容重新分发的资源的37K文章子集,这些资源包括CCO、CDC、CMA、ICRC、NICE、PubMed、SPOR、WHO和WikiDoc。数据集的语言为英语,涵盖了多个医学领域和地理范围。数据集的创建目的是为医学领域的自然语言处理任务提供高质量的文本数据。
提供机构:
aisc-team-b1
原始信息汇总
临床指南数据集概述
数据集基本信息
- 名称: Clinical Guidelines
- 许可证: Common Crawl Foundation Terms of Use
- 任务类别: 文本生成
- 语言: 英语
- 标签: 医学, 健康
- 数据集大小: 10K<n<100K
- 知识截止日期: 2023年8月
数据集结构
特征
- id: 字符串,唯一标识符
- source: 字符串,来源标签
- title: 字符串,文章标题
- clean_text: 字符串,清洗和格式化的文章文本
- raw_text: 字符串,未经处理的抓取文章文本
- url: 字符串,文章的URL
- overview: 字符串,文章的简短摘要或概述
数据分割
- 训练集: 37970个样本,865223621字节
数据集创建
数据来源
数据集包含47K篇临床实践指南,来自17个高质量在线医学资源。公开发布的数据子集包含37K篇文章,来自9个允许内容重新分发的资源,包括CCO、CDC、CMA、ICRC、NICE、PubMed、SPOR、WHO和WikiDoc。
数据收集和处理
PDF文档通过GROBID转换为文本。提取原始文本后,通过特定过程清洗数据,排除无关或重复内容。文本标准化为统一格式,并进行去重和过滤。
个人和敏感信息
数据集不包含个人或敏感信息。
使用范围
适用用途
数据集适用于与临床实践指南相关的文本生成任务,可用于训练语言模型和其他自然语言处理应用。
不适用用途
- 重新分发: 请在重新分发前检查许可证。
- 恶意使用: 不支持任何可能有害的使用。
偏差、风险和限制
- 同行评审质量: 大部分来源由国际认可的专业协会验证,但部分来自Wikidoc的内容是众包的。
- 代表性: 数据集主要为英语,且偏向英语区域。
- 时间范围: 指南不断更新,数据集代表2023年8月的快照。
建议
鼓励用户帮助构建更多样化、高质量的临床实践指南数据集,并注意其当前的局限性。



