DRSM-Corpus

github2022-01-27 更新2024-05-31 收录

下载链接：

https://github.com/Nid989/Experiments-on-DRSM-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于NLP研究的标注文献语料库，基于不同类别的研究，专注于疾病研究状态。数据集包含8919条记录，涉及多个类别，如临床特征或疾病病理、疾病机制、临床治疗等。

This is an annotated literature corpus for NLP research, focusing on the state of disease research across various categories. The dataset comprises 8,919 records, covering multiple domains such as clinical characteristics or disease pathology, disease mechanisms, clinical treatments, and more.

创建时间：

2022-01-11

原始信息汇总

数据集概述

数据来源

数据集名称: DRSM-Corpus
数据类型: 医学文献标注数据集
数据内容: 包含8919条记录，每条记录包括ID_PAPER, TITLE, ABSTRACT, PRIMARY CATEGORY, SECONDARY CATEGORY, IRRELEVANT, DISEASE_NAME等字段。

数据统计

数据大小: 8919条记录
类别数量: 6个独特类别，包括clinical characteristics or disease pathology, other, disease mechanism, therapeutics in the clinic, irrelevant, patient-based therapeutics
类别统计:
- clinical characteristics or disease pathology: 4166条
- disease mechanism: 2801条
- therapeutics in the clinic: 1166条
- patient-based therapeutics: 342条
- other: 342条
- irrelevant: 109条

实验方法

模型变体

BioBERT: 使用基础BioBERT模型进行训练。
PubMedBERT-LWAN: 结合PubMedBERT与LWAN进行训练。
Specter-LWAN: 使用基础Specter模型结合LWAN进行训练。
Specter dual-attention LWAN: 使用Specter嵌入与双注意力模块结合LWAN进行训练。

模型性能

BioBERT: Micro F1 score为0.8995。
PubMedBERT-LWAN: Micro F1 score为0.9087。
Specter-LWAN: Micro F1 score为0.9011。
Specter dual-attention LWAN: Micro F1 score为0.9109，为最佳表现模型。

实验设置

运行环境: 推荐使用Google Colab，配置包括Nvidia Tesla V100sxm2 GPU和16160MiB GPU内存。
数据下载: 使用wget命令下载数据，数据存储于Google Colab的content目录。
模型检查点: 每个模型均提供检查点链接，用于测试和进一步分析。

搜集汇总

数据集介绍

构建方式

DRSM-Corpus数据集的构建基于对COVID-19相关文献的标注，旨在支持自然语言处理领域的研究。该数据集从公开的医学文献中提取，涵盖了8919篇文献，每篇文献均标注了其研究类别，如‘疾病机制’、‘临床特征或疾病病理学’等。数据集的构建过程涉及对文献的深入分析和分类，确保每篇文献都能准确反映其研究方向和内容。

特点

DRSM-Corpus数据集的特点在于其多标签分类的复杂性，涵盖了从疾病机制到临床治疗等多个研究领域。数据集中的类别分布不均，例如‘疾病机制’类别的文献数量最多，而‘无关’类别的文献数量较少。这种不平衡性为机器学习模型提供了挑战，同时也为研究者提供了探索数据平衡策略的机会。此外，数据集还提供了每篇文献的标题、摘要和疾病名称，为深入研究提供了丰富的信息。

使用方法

使用DRSM-Corpus数据集时，研究者可以通过提供的Google Colab笔记本进行模型训练和测试。这些笔记本配置了Nvidia Tesla V100sxm2 GPU，确保了高效的计算性能。用户需按照指南安装必要的依赖，连接Google Drive，并下载数据集和模型检查点。通过这些步骤，用户可以轻松复现实验结果，或在此基础上进行进一步的研究和开发。

背景与挑战

背景概述

DRSM-Corpus数据集由Chan Zuckerberg Initiative支持，旨在为自然语言处理（NLP）研究提供一个基于疾病研究状态的标注文献语料库。该数据集的核心研究问题聚焦于多标签分类任务，特别是在COVID-19相关文献的标注与分析中。数据集的主要研究人员包括来自Navrachana University和Oak Ridge National Laboratory的团队，他们在Biocreative VII会议的Track-5任务中展示了相关研究成果。DRSM-Corpus的创建时间为2021年，其影响力主要体现在为医学领域的文本分类和疾病研究状态建模提供了高质量的数据支持。

当前挑战

DRSM-Corpus面临的挑战主要集中在两个方面。首先，数据集中各类别的样本分布极不均衡，例如`disease mechanism`类别的样本数量远多于`irrelevant`类别，这种不平衡可能导致模型在少数类别上的表现不佳。其次，构建过程中需要处理大量医学文献的复杂语义和领域特定术语，这对标注的准确性和一致性提出了较高要求。此外，尽管采用了先进的BERT模型和标签注意力机制（LWAN）来提升分类性能，但如何进一步优化模型以应对数据不平衡问题仍是当前研究的重点。

常用场景

经典使用场景

DRSM-Corpus数据集在自然语言处理（NLP）领域中被广泛应用于疾病研究状态的分类任务。该数据集通过对医学文献的标注，帮助研究者识别和分类与疾病相关的不同研究状态，如临床特征、疾病机制、治疗方法等。其经典使用场景包括利用深度学习模型（如BERT、PubMedBERT等）进行多标签分类，以自动化地处理大量医学文献，提升研究效率。

解决学术问题

DRSM-Corpus解决了医学文献分类中的多标签分类问题，尤其是在COVID-19相关文献的自动化处理中发挥了重要作用。通过提供高质量的标注数据，该数据集帮助研究者开发出更精确的分类模型，从而加速医学研究的进展。此外，该数据集还解决了医学文献中类别不平衡的问题，为后续研究提供了数据支持和方法论参考。

衍生相关工作

基于DRSM-Corpus，研究者开发了多种先进的深度学习模型，如BioBERT、PubMedBERT-LWAN和Specter dual-attention LWAN等。这些模型在Biocreative VII会议的Track-5任务中取得了显著成果，推动了医学文本分类领域的发展。此外，该数据集还激发了更多关于医学文献自动化处理的研究，如基于注意力机制的改进模型和类别不平衡问题的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集