DFKI-SLT/OptimAL

Name: DFKI-SLT/OptimAL
Creator: DFKI-SLT
Published: 2024-06-22 15:00:28
License: 暂无描述

Hugging Face2024-06-22 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/OptimAL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集与药物发现和临床决策支持相关。数据集作者报告了如何结合弱监督（如程序化标签和众包）和深度学习方法，从DailyMed文本中提取药物与疾病之间的关系，以创建更高质量的药物-疾病关系数据集。生成的药物-疾病关系数据与手动整理的DrugCentral数据集高度重叠。使用该数据集，他们构建了一个机器学习模型，将药物与疾病之间的关系从文本中分类为四种类型：治疗、症状缓解、禁忌和效果。数据集包含187个训练样本，每个样本包含唯一的_unit_id、工人答案、上下文、药物名称和疾病名称等字段。数据集的语言为英语，适用于文本分类任务，特别是关系提取和关系分类。

The dataset is relevant to drug discovery and clinical decision support. The authors reported on the combination of weak supervision (i.e., programmatic labeling and crowdsourcing) and deep learning methods for relation extraction from DailyMed text to create a higher quality drug-disease relation dataset. The generated drug-disease relation data showed a high overlap with DrugCentral, a manually curated dataset. Using this dataset, they constructed a machine learning model to classify relations between drugs and diseases from text into four categories: treatment, symptomatic relief, contradiction, and effect. The dataset contains 187 training examples, each with unique _unit_id, Worker Answer, context, drug_name, and disease_name fields. The language of the dataset is English, and it is suitable for text classification tasks, particularly relation extraction and relation classification.

提供机构：

DFKI-SLT

原始信息汇总

OptimALBaselineDataset 数据集概述

数据集描述

数据集概要

OptimALBaselineDataset 数据集用于药物发现和临床决策支持。该数据集通过结合弱监督（程序化标注和众包）和深度学习方法，从 DailyMed 文本中提取药物-疾病关系，生成高质量的药物-疾病关系数据。生成的数据与 DrugCentral（一个手工 curated 的数据集）有高度重叠。使用该数据集，构建了一个机器学习模型，用于从文本中分类药物和疾病之间的关系，分为四个类别：治疗、缓解症状、矛盾和效果。

语言

数据集中的语言为英语。

数据集结构

数据实例

一个 train 数据实例的示例如下： json { "_unit_id": 2270472226, "Worker Answer": "effect", "context": "(See INDICATIONS AND USAGE and WARNINGS.) Experience in over 1,400 patients with nifedipine immediate-release capsules in a noncomparative clinical trial has shown that concomitant administration of nifedipine and beta-blocking agents is usually well tolerated, but there have been occasional literature reports suggesting that the combination may increase the likelihood of congestive heart failure, severe hypotension, or exacerbation of angina.", "drug_name": "Nifedipine", "disease_name": "CONGESTIVE HEART FAILURE" }

数据字段

_unit_id: 数据条目的唯一标识符，类型为 int64。
Worker Answer: 工人根据上下文提供的答案或分类，类型为 string。
context: 提供药物和疾病交互场景的文本，类型为 string。
drug_name: 上下文中讨论的药物名称，类型为 string。
disease_name: 上下文中与药物相关的疾病名称，类型为 string。

引用

BibTeX

@article{SHINGJERGJI2021103902, title = {Relation extraction from DailyMed structured product labels by optimally combining crowd, experts and machines}, journal = {Journal of Biomedical Informatics}, volume = {122}, pages = {103902}, year = {2021}, issn = {1532-0464}, doi = {https://doi.org/10.1016/j.jbi.2021.103902}, url = {https://www.sciencedirect.com/science/article/pii/S1532046421002318}, author = {Krist Shingjergji and Remzi Celebi and Jan Scholtes and Michel Dumontier}, keywords = {Drug-disease relation classification, Drug indications, Drug data quality, Drug repositioning, Weak supervision, Programmatic labeling, Crowdsourcing, Human-in-the-loop, Machine learning}, }

APA

Shingjergji, K., Celebi, R., Scholtes, J., & Dumontier, M. (2021). Relation extraction from DailyMed structured product labels by optimally combining crowd, experts and machines. Journal of Biomedical Informatics, 122, 103902. https://doi.org/10.1016/j.jbi.2021.103902

搜集汇总

数据集介绍

构建方式

OptimAL数据集的构建是基于对DailyMed结构化产品标签文本中药物-疾病关系的提取，结合了弱监督（程序化标记与众包）及深度学习方法。通过对大规模文本数据的分析，作者们创建了一个高质量的药物-疾病关系数据集，并与手动 curate 的DrugCentral数据集进行了比对，以确保数据质量。该数据集包含 '_unit_id'、'Worker Answer'、'context'、'drug_name' 和 'disease_name' 等字段，涵盖了训练所需的各类信息。

特点

OptimAL数据集的特点在于其创新性地融合了众包和机器学习技术，形成了对药物-疾病关系的深度理解。数据集包含的药物-疾病关系被分为四类：治疗、症状缓解、禁忌和影响。此外，数据集以英文为语言，确保了其在国际医学研究领域的适用性。其结构化设计便于机器学习模型的训练与评估，对于药物发现和临床决策支持具有显著价值。

使用方法

使用OptimAL数据集时，研究者可以依据数据集中的字段进行模型训练，如基于 '_unit_id' 进行数据索引，'Worker Answer' 作为标签，'context' 提供文本上下文，'drug_name' 和 'disease_name' 指明具体的药物和疾病。数据集可通过其提供的GitHub仓库进行下载，并按照数据集的结构化格式进行读取和使用，以支持药物-疾病关系分类的研究工作。

背景与挑战

背景概述

OptimAL数据集，创建于2021年，由Maastricht大学的Krist Shingjergji等研究人员开发。该数据集旨在解决药物发现和临床决策支持领域中的药物-疾病关系提取问题，通过结合弱监督（程序化标记和众包）与深度学习方法，从DailyMed结构化产品标签文本中提取关系，构建了高质量的药物-疾病关系数据集。该数据集与手工 curated 的DrugCentral数据集具有高度的重叠性，研究人员利用该数据集构建了机器学习模型，以对文本中的药物与疾病关系进行分类。OptimAL数据集的构建对药物信息处理和生物医学文本挖掘领域产生了显著影响，为相关研究提供了重要的数据资源。

当前挑战

在构建OptimAL数据集的过程中，研究人员面临了多方面的挑战。首先，药物-疾病关系的提取需要高精度的标注，而众包和程序化标记带来的弱监督方法可能引入错误。其次，数据集的构建需要处理大量的文本数据，并确保数据质量，这对于数据清洗和预处理提出了挑战。此外，构建能够准确分类药物与疾病关系的机器学习模型，需要解决模型泛化能力和分类精度的问题。这些挑战均需要在数据集的构建和后续模型开发中得到妥善解决。

常用场景

经典使用场景

在药物发现与临床决策支持的领域内，OptimAL数据集被广泛应用于文本中药物与疾病关系的提取任务。其通过结合弱监督（程序化标记与众人协作）与深度学习方法，从DailyMed文本中构建出高质量的药物-疾病关系数据集，进而用于机器学习模型的训练，实现对药物与疾病关系的分类。

解决学术问题

OptimAL数据集解决了传统药物-疾病关系提取中标注数据质量不高的问题。通过引入众人协作与专家标注相结合的方式，该数据集提高了标注的准确性与全面性，为药物-疾病关系的分类研究提供了可靠的数据基础，对提升药物信息处理与临床决策支持系统的效能具有重要价值。

衍生相关工作

基于OptimAL数据集的研究衍生出了众多相关工作，包括但不限于进一步改进药物-疾病关系提取模型的算法研究，以及将该数据集应用于真实世界药物使用数据中的关系预测等。这些研究进一步拓展了数据集的应用范围，推动了药物信息学领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集