Drug Review Dataset (Drugs.com)

github2020-11-13 更新2024-05-31 收录

下载链接：

https://github.com/Mohd-Misran/Drug-Reviews-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供患者对特定药物的评价，包括相关疾病和10星级的患者满意度评分。数据通过爬取在线药品评价网站获得，包含215063个实例和5个列。数据分为训练集（75%）和测试集（25%），存储在两个.tsv文件中。

This dataset provides patient evaluations of specific medications, including related diseases and a 10-star patient satisfaction rating. The data was obtained by scraping online drug review websites, comprising 215,063 instances and 5 columns. The data is divided into a training set (75%) and a test set (25%), stored in two .tsv files.

创建时间：

2020-05-17

原始信息汇总

Drug-Reviews-Dataset 概述

数据集描述

数据来源：在线药品评论网站爬取。
数据量：包含215,063个实例，分为训练集（75%）和测试集（25%）。
数据格式：存储为两个.tsv文件。
数据内容：
- 1. drugName - 药品名称
- 1. condition - 疾病名称
- 1. review - 患者评论
- 1. rating - 患者满意度评分（1-10分）
- 1. usefulCount - 认为评论有用的用户数

数据集用途

用于研究药品体验的多方面情感分析，如效果和副作用。
研究模型在不同领域（如不同疾病）的迁移能力。
研究模型在不同数据源的迁移能力。

数据集处理

数据预处理：
- 合并训练集和测试集进行数据可视化。
- 清理数据，去除特定值和文本数据清洗。
模型构建：
- 使用Word Embeddings表示清洗后的评论。
- 采用Keras Sequential Model进行模型训练。

结果

训练集准确率：约86%。
测试集准确率：约83%。

搜集汇总

数据集介绍

构建方式

Drug Review Dataset (Drugs.com) 数据集通过爬取在线药品评论网站构建而成，涵盖了患者对特定药物的评价、相关病症以及反映患者满意度的10星评分。该数据集包含215,063条实例和5个属性列，数据被划分为训练集（75%）和测试集（25%），并分别存储为两个以制表符分隔的.tsv文件。

特点

该数据集的特点在于其丰富的文本信息和结构化评分数据。每条记录包含药物名称、病症、患者评论、10星评分以及评论的有用性计数。这些属性为多方面的情感分析提供了基础，例如针对药物有效性、副作用等特定方面的情感学习。此外，数据集的规模较大，适合用于跨领域模型迁移研究，尤其是在不同数据源之间的模型迁移能力评估。

使用方法

该数据集的使用方法主要集中在情感分析和模型训练上。用户可以通过对患者评论进行情感分类，将评分低于6的评论标记为负面，评分高于或等于6的标记为正面。数据预处理包括文本清洗、去除无效值以及生成词嵌入表示。随后，可以使用Keras等深度学习框架构建模型，并通过训练集进行模型训练，最终在测试集上评估模型性能。

背景与挑战

背景概述

Drug Review Dataset (Drugs.com) 数据集由在线药品评论网站爬取而来，包含了患者对特定药物的评价、相关病症以及反映患者满意度的10星评分。该数据集创建于2018年，由Speckbit机构的研究人员主导，旨在为药物评价的情感分析提供数据支持。数据集包含215,063条实例和5个属性，涵盖了药物名称、病症、患者评论、评分以及评论的有用性计数。该数据集在药物评价、情感分析以及跨领域模型迁移等研究中具有重要影响力，为药物效果和副作用的多维度分析提供了丰富的数据基础。

当前挑战

Drug Review Dataset (Drugs.com) 数据集在应用过程中面临多重挑战。首先，情感分析任务需要对患者评论进行细粒度分类，涉及对药物效果、副作用等多方面的情感提取，这对模型的语义理解能力提出了较高要求。其次，数据集的文本特征处理较为复杂，评论数据需要经过清洗、去噪和向量化等预处理步骤，而大规模文本数据的处理对计算资源提出了较高需求。此外，跨领域模型迁移的研究需要解决不同病症和药物之间的数据分布差异问题，这对模型的泛化能力提出了挑战。构建过程中，数据爬取和清洗也面临了评论格式不统一、噪声数据较多等技术难题。

常用场景

经典使用场景

在药物评价领域，Drug Review Dataset (Drugs.com) 数据集被广泛应用于情感分析研究。通过分析患者对特定药物的评价，研究人员能够深入理解患者对药物效果、副作用等方面的情感倾向。该数据集的多维度信息，如药物名称、治疗条件、患者评分等，为构建复杂的情感分析模型提供了丰富的数据基础。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，研究人员利用该数据集开发了基于深度学习的药物评价情感分析模型，显著提升了情感分类的准确率。此外，该数据集还催生了跨领域模型迁移研究，推动了药物评价领域与其他领域（如医疗健康、自然语言处理）的交叉研究。

数据集最近研究