Zakia/drugscom_reviews
收藏数据集卡片:DrugsCom Reviews
数据集描述
数据集摘要
DrugsCom Reviews数据集最初来源于UCI机器学习库。它提供了患者对特定药物的评论,以及相关疾病和反映患者总体满意度的10星评级。该数据集已上传到Hugging Face,以便机器学习社区更容易访问和使用。它包含161,297个训练集实例和53,766个测试集实例。
支持的任务和排行榜
该数据集可用于情感分析和文本分类任务。
语言
数据集中的文本为英语。
数据集结构
数据实例
一个来自train分割的数据实例:
json
{
"drugName": "Buprenex",
"condition": "Pain",
"review": "I have severe drug allergies especially opiates, I have been on Buprenorphine for many years now and found it to be an excellent pain reliever. I have found that at times though it is hard to find and have had to go to the patch.",
"rating": 10,
"date": "May 11, 2012",
"usefulCount": 27
}
一个来自test分割的数据实例:
json
{
"drugName": "Nasacort Allergy 24HR",
"condition": "Allergic Rhinitis",
"review": "Since I start using this product I experienced change of vision and headaches.",
"rating": 3,
"date": "September 8, 2015",
"usefulCount": 27
}
数据字段
drugName: 字符串condition: 字符串review: 字符串rating: 整数(0-10)date: 日期usefulCount: 整数
数据分割
数据集分为训练集和测试集:
train: 161,297个实例test: 53,766个实例
数据集创建
策划理由
该数据集是为了研究药物体验的情感分析以及模型在不同领域和数据源之间的可转移性而策划的。
源数据
初始数据收集和规范化
数据集是通过抓取在线药品评论网站收集的。该存储库中提供的数据没有进行额外的预处理或规范化;它以从源获取的原始形式呈现。
源语言生产者
评论由drugs.com网站的患者和用户撰写。
注释
注释过程
没有进行额外的注释过程,因为数据包含患者自我报告的评级。
注释者
N/A
个人和敏感信息
数据集包含患者药物评论形式的敏感信息。
使用数据的注意事项
数据集的社会影响
该数据集可用于研究药物对患者的影响,这对医疗保健研究有益。
偏见的讨论
没有已知的偏见,但用户应考虑数据的自我报告性质。
其他已知限制
数据集可能无法很好地推广到数据中未代表的药物或疾病。
附加信息
数据集策展人
由UCI机器学习库策展。
许可信息
根据知识共享署名4.0国际许可协议(CC BY 4.0)授权。
引用信息
使用此数据集时,请引用原始来源以及Hugging Face数据集存储库: bibtex @misc{misc_drug_review_dataset_(drugs.com)_462, author = {Kallumadi,Surya and Grer,Felix}, title = {Drug Review Dataset (Drugs.com)}, year = {2018}, howpublished = {UCI Machine Learning Repository}, note = {DOI: https://doi.org/10.24432/C5SK5S} }
@misc{huggingface:drugscom_reviews, title = {Drug Review Dataset (Drugs.com) - Hugging Face Version}, author = {Salod, Zakia}, year = {2023}, publisher = {Hugging Face}, howpublished = {Hugging Face Datasets Library}, url = {https://huggingface.co/datasets/Zakia/drugscom_reviews} }
贡献
该数据集由Zakia上传到Hugging Face。特别感谢社区的兴趣和参与。欢迎未来的贡献,包括讨论、问题和对数据集卡的改进,在此数据集的Hugging Face页面的讨论部分中受到欢迎和赞赏。



