gwenxin/pills_inside_bottles

Name: gwenxin/pills_inside_bottles
Creator: gwenxin
Published: 2024-03-20 03:50:00
License: 暂无描述

Hugging Face2024-03-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gwenxin/pills_inside_bottles

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含13,955张药瓶内药片的图像，每张图像都标注了国家药品代码（NDC）和图像ID。图像是从俯视角度拍摄的，标注了20个不同的国家药品代码。数据集分为训练集、测试集和验证集，主要用于训练图像分类模型，以提高药房自动识别药片的效率和减少配药错误。数据集的创建目的是为了支持药房工作，数据来源于一个商业药品分发机器人。

提供机构：

gwenxin

原始信息汇总

数据集卡片：Pills Inside Bottles

数据集描述

概述

数据集包含13,955张药瓶内药丸的图像，这些图像从顶部视角拍摄，并标注了20种不同的国家药品代码（NDC），每张图像都有一个唯一的图像ID。数据集被分为训练集、测试集和验证集。

数据集结构

数据实例

每个数据实例包含以下特征：image（图像）、ndc（国家药品代码）和id（图像ID）。

训练集中的一个示例： json { "image": "<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1284x960>", "ndc": "29159", "id": "00378-3855" }

数据字段

image：药瓶内药丸的图像
ndc：国家药品代码
id：唯一的图像ID

数据分割

数据集分为三个部分：训练集、验证集和测试集。各部分包含不重叠的图像及其对应的NDC和ID。

数据集分割	实例数量	百分比
训练集	8,393	60.1%
验证集	2,786	20.0%
测试集	2,776	19.9%

数据集来源

数据由一组研究人员收集，包括Lester, C. A., Al Kontar, R., 和 Chen, Q.，他们的论文《Performance Evaluation of a Prescription Medication Image Classification Model: An Observational Cohort》发表于2022年。

数据集用途

数据集可用于训练图像分类模型，有助于自动识别药丸，提高药房配药效率并减少错误。

数据集创建

数据集的创建目的是为了训练图像分类模型，以促进药房工作。

偏差、风险和限制

原始论文的研究人员仅发布了部分数据，因此模型性能可能因训练数据不足而受到影响。

引用

bibtex @InProceedings{University of Michigan - Deep Blue Data, title = {Images of pills inside medication bottles dataset}, author = {Lester, C. A., Al Kontar, R., Chen, Q.}, year = {2022} }

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在服务于医药领域，特别是药房工作的自动化。数据由一组研究人员收集，包括Lester, C. A.，Al Kontar, R.和Chen, Q.，他们通过使用商业药物分发机器人从顶部拍摄药瓶内的药片图像，并标注每个图像的National Drug Code（NDC）和唯一图像id。数据集经过精心策划，分为训练集、验证集和测试集，以确保模型的训练和评估质量。

特点

此数据集的特色在于其专注于药瓶内药片的图像，共计13,955张，涵盖了20种不同的National Drug Code（NDC）。每张图像均附带NDC和唯一id，便于模型的训练和验证。数据集遵循cc-by-4.0许可，保证了数据的开放性和共享性。此外，数据集的规模适中，便于在多种计算资源上进行处理。

使用方法

用户可以通过HuggingFace的库直接加载此数据集，利用其提供的 splits 来访问训练、验证和测试数据。数据实例包含图像、NDC和id三个字段，可以用于训练图像分类模型，以提高药房中药物分发的效率和准确性。此外，数据集的示例用例提供了使用EfficientNetV2M预训练模型和支持向量机算法达到约97%准确率的参考。

背景与挑战

背景概述

在医药领域，自动化药品识别对于提高药房工作效率及降低配药错误率至关重要。为此， Lester，C. A. 等研究人员于2022年构建了名为 'pills-inside-bottles' 的数据集，旨在通过图像分类模型辅助药品识别。该数据集包含13,955张从上方视角拍摄的药瓶内药品图片，每张图片均标注有20种不同的国家药品代码（NDC），并与一个唯一的图像ID相关联。数据集按照训练集、验证集和测试集进行划分，遵循cc-by-4.0版权协议发布，可供研究者用于模型训练和性能评估。

当前挑战

尽管该数据集在促进药品图像分类研究方面发挥了重要作用，但存在一定挑战。首先，数据集规模有限可能影响模型的泛化能力。其次，数据来源单一，可能无法涵盖所有市售药品，导致模型在面对新型或未标记药品时准确率降低。此外，数据集的构建过程中，对图像的收集和处理可能存在偏差，进而影响模型训练的公正性和准确性。

常用场景

经典使用场景

在医学图像处理领域，gwenxin/pills_inside_bottles数据集提供了一个独特的视角，其经典使用场景在于构建图像分类模型，以自动识别药瓶内的药片。通过该数据集，研究者能够训练模型准确识别不同种类的药片，从而提高药房配药的效率和准确性，减少人为配药错误。

实际应用

在实际应用中，gwenxin/pills_inside_bottles数据集的应用场景广泛，从药房自动化配药系统到患者用药监测，均能利用该数据集进行模型的训练和验证，以提高药物管理的效率和安全性。

衍生相关工作

基于该数据集，已经衍生出了一系列相关工作，如药片识别模型的性能评估、药物图像分类算法的研究等。这些研究不仅推动了医学图像分析领域的发展，也为药物识别技术的商业化应用奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集