DRSM-corpus
收藏github2023-08-19 更新2024-05-31 收录
下载链接:
https://github.com/chanzuckerberg/DRSM-corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个注释过的文献语料库,用于NLP研究疾病研究状态,基于不同类别的研究。该语料库反映了我们目前手动策划的研究数据状态,结合了策划说明和策划过程的详细信息。
An annotated literature corpus for NLP research on disease research status, based on studies of different categories. This corpus reflects the current state of our manually curated research data, incorporating detailed information on curation notes and the curation process.
创建时间:
2021-04-02
原始信息汇总
数据集概述
数据集名称
DRSM-corpus
数据集描述
DRSM-corpus 是一个用于自然语言处理研究的注释文献语料库,专注于“疾病研究状态”,基于不同类别的研究。该语料库反映了当前手动策划的研究数据状态,包括策划指导和策划过程的详细信息。
数据收集与处理
数据集通过手动策划主要研究论文的标题和摘要生成,这些论文是从CZIF的知识图中根据疾病名称和同义词搜索得出的。分类方案是在内部制定的,并与外部专家、罕见疾病组织、药物公司和其他CZI团队成员咨询后进行修订。
数据集版本
- V1 Corpus: 包含1,144篇由内部团队标记的“Gold Standard”文章和16,951篇由CentaurLabs标记的文章,总计18,174篇罕见疾病主要研究文章。
- V2 Corpus: 专注于特定类型的研究论文,如生活质量、自然历史研究、诊断/治疗指南等,已完成的包括生活质量研究的数据。
数据格式
数据以.tsv文件格式提供,包含多个列,如PubMed标识符、标签状态、解释、正确标签、协议等。
数据集状态
当前版本为1,项目处于早期活跃开发阶段,可能缺乏足够的最终用户文档和支持。
数据集内容
- V1 Corpus: 提供文章的标题、摘要、主要和次要类别、疾病名称等信息。
- V2 Corpus: 提供特定类型研究论文的数据,如生活质量研究,包括PubMed ID、标签状态、正确标签、协议等。
数据集访问
所有策划的数据均可访问,包括由团队内多个策划者处理的数据,经过共识过滤,并由高级策划者检查和编辑。
搜集汇总
数据集介绍

构建方式
DRSM-corpus数据集的构建基于对疾病研究状态的深入分析,通过从CZIF知识图谱中查询疾病名称及其同义词,手动筛选并标注了相关研究论文的标题和摘要。数据集的分类方案由内部团队与外部专家共同制定,并随着研究的进展不断修订。标注工作由CZIF生物标注团队完成,确保了数据的高质量和专业性。数据集以多个TSV文件形式提供,包含PubMed标识符、标注状态、解释、正确标签、一致性评分、论文标题及摘要等信息。
特点
DRSM-corpus数据集的特点在于其专注于罕见疾病研究文献的标注,涵盖了18,174篇罕见疾病相关的研究论文,其中1,144篇由内部团队标注为‘黄金标准’,其余由CentaurLabs标注。数据集不仅提供了详细的标注信息,还包括了标注过程中的注释和时间戳,确保了数据的透明性和可追溯性。此外,数据集还特别关注了罕见疾病研究中的高质量生活、自然历史研究、诊断/治疗指南等特定子类型,为相关领域的自然语言处理研究提供了丰富的资源。
使用方法
DRSM-corpus数据集的使用方法包括通过提供的TSV文件访问标注数据,用户可以根据PubMed标识符、标注状态、正确标签等字段进行筛选和分析。数据集特别适用于开发能够识别特定类型研究论文的分类器,如高质量生活研究、自然历史研究等。用户还可以利用数据集中的一致性评分和向量信息,进一步优化模型的性能。此外,数据集提供了详细的标注注释和时间戳,便于用户理解数据的生成过程并进行深入分析。
背景与挑战
背景概述
DRSM-corpus数据集是一个专门为自然语言处理(NLP)研究设计的文献语料库,旨在支持基于不同研究类别的疾病研究状态模型(Disease Research State Model, DRSM)分析。该数据集由Chan Zuckerberg Initiative(CZI)的研究团队创建,主要基于从CZIF知识图谱中查询的疾病名称及其同义词,手动筛选并标注了相关研究论文的标题和摘要。数据集的核心研究问题在于如何通过文本分析技术,自动识别和分类疾病研究文献中的研究状态和类型,从而为罕见病研究提供支持。该数据集自发布以来,已成为罕见病研究领域的重要资源,推动了相关领域的文本分类和知识图谱构建研究。
当前挑战
DRSM-corpus数据集在构建和应用过程中面临多重挑战。首先,数据集的标注过程依赖于人工筛选和分类,这要求标注者具备深厚的领域知识,以确保标注的准确性和一致性。其次,由于罕见病研究的多样性和复杂性,如何设计一个既能覆盖广泛研究类型又能保持分类精度的标注体系,成为数据集构建中的一大难题。此外,数据集的扩展和更新需要持续的人工干预,这限制了其规模化的潜力。在应用层面,如何利用有限的标注数据训练出高效的文本分类模型,尤其是在罕见病研究领域,仍然是一个亟待解决的技术挑战。
常用场景
经典使用场景
DRSM-corpus数据集在自然语言处理(NLP)领域中,主要用于疾病研究状态的分类与分析。通过手动标注的文献标题和摘要,该数据集为研究人员提供了一个丰富的资源,用于训练和评估文本分类模型。特别是在罕见病研究领域,DRSM-corpus能够帮助识别和分类不同类别的研究论文,如基础研究、临床试验、诊断指南等,从而为疾病研究的进展提供数据支持。
解决学术问题
DRSM-corpus解决了在疾病研究领域中,如何高效分类和检索相关文献的学术问题。通过提供详细的标注数据,该数据集使得研究人员能够开发出更精确的文本分类算法,从而提升文献检索的效率和准确性。此外,该数据集还为罕见病研究提供了标准化的分类框架,帮助研究人员更好地理解不同类别研究论文的贡献和意义。
衍生相关工作
基于DRSM-corpus,许多经典的研究工作得以展开。例如,研究人员开发了多种基于机器学习的文本分类模型,用于自动识别和分类疾病研究文献。此外,该数据集还催生了一系列关于罕见病研究的文献综述和元分析,帮助研究人员更好地理解罕见病的研究现状和未来方向。这些工作不仅推动了NLP技术的发展,也为疾病研究领域的学术进步提供了重要支持。
以上内容由遇见数据集搜集并总结生成



