bigbio/czi_drsm
收藏Hugging Face2023-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/czi_drsm
下载链接
链接失效反馈官方服务:
资源简介:
CZI DRSM数据集是一个基于疾病研究方面的研究文章分类数据集。目前,该数据集包含三个子集:(A) 将论文的标题/摘要分类为临床、基础和转化研究的最流行子类型(约20k篇论文);(B) 识别论文的标题/摘要是否描述了生活质量的实质性研究(约10k篇论文);(C) 识别论文是否为自然历史研究(约10k篇论文)。这些分类在罕见疾病研究中尤为重要。该数据集通过CentaurLabs的diagnos.us平台的游戏化策展方法编译。
提供机构:
bigbio
原始信息汇总
数据集卡片 CZI DRSM
数据集描述
- 主页: https://github.com/chanzuckerberg/DRSM-corpus
- PubMed: 否
- 公开: 是
- 任务: TXTCLASS
基于疾病研究方面的研究文章文档分类数据集。目前,该数据集包含三个子集:
(A) 将论文的标题/摘要分类为临床、基础和转化论文的最流行子类型(约20,000篇论文);
- 临床特征、疾病病理和诊断:
描述(i)疾病的症状、体征或“表型”;
(ii)疾病对患者器官、组织或细胞的影响;
(iii)揭示病理的临床测试结果(包括生物标志物);
(iv)利用这些信息进行诊断的研究。
- 临床中的治疗:
描述治疗在临床中如何起作用的文本(但不在临床试验中)。
- 疾病机制:
- 基于患者的治疗:
描述(i)临床试验(在临床试验中对患者使用的治疗措施的研究);
(ii)上市后药物监测(药物在一般人群或作为“标准医疗”的一部分批准后的效果);
(iii)药物再利用(已批准用于一种用途的药物如何应用于新疾病)。
(B) 识别论文的标题/摘要是否描述了关于生活质量的实质性研究(约10,000篇论文);
- [-1] - 该论文不是罕见疾病中的主要实验研究
- [0] - 该研究不直接调查生活质量
- [1] - 该研究调查了生活质量,但不是其主要贡献
- [2] - 该研究的主要贡献围绕生活质量测量
(C) 识别论文是否是自然历史研究(约10,000篇论文)。
- [-1] - 该论文不是罕见疾病中的主要实验研究
- [0] - 该研究不直接调查疾病的自然历史
- [1] - 该研究包括一些自然历史的元素,但不是其主要贡献
- [2] - 该研究的主要贡献围绕观察罕见疾病的时间进程
这些分类在罕见疾病研究中尤为相关,这是一个通常研究不足的领域。
该数据是通过基于CentaurLabs的diagnos.us平台的游戏化策展方法编制的。



