Flickr8k|图像字幕生成数据集|自然语言处理数据集
收藏ImageCaptioning 数据集概述
项目概述
ImageCaptioning 项目是一个用于图像描述生成的机器学习项目,使用卷积神经网络(CNN)和循环神经网络(RNN)的组合来生成图像的自然语言描述。项目使用了 Flickr8k 数据集,该数据集包含 8,091 张图像,每张图像带有五个描述图像内容的标注。
关键特性
- 图像特征提取:使用预训练的 ResNet50 模型进行特征提取。
- 序列生成:使用带有 LSTM 层的 RNN 模型生成基于图像特征的描述。
- 评估:使用基于 BERT 的相似度度量来比较生成的描述与参考描述。
目录结构
- Captions:包含
captions.txt
文件,其中包含图像 ID 和对应的描述。 - Code:
ImageCaptioning.ipynb
:包含代码、解释和图像描述模型结果的 Jupyter Notebook。ImageCaptioning.py
:适用于在 Jupyter 环境外运行模型的 Python 脚本版本。
安装
项目需要 Python 3.7 或更高版本。所需的库可以通过以下命令安装:
bash pip install tensorflow keras numpy transformers sklearn pillow
此外,按照 Notebook 中的说明下载并解压 Flickr8k 数据集和描述文件。
使用
运行 Jupyter Notebook
- 在 Jupyter Notebook 或 JupyterLab 中打开
ImageCaptioning.ipynb
。 - 逐个执行单元格。按照注释理解代码的每个部分。
- 修改 Notebook 以试验不同的配置、参数或模型架构。
这将训练模型并在测试集上进行评估。
模型架构
项目采用 CNN-RNN 架构 进行图像描述生成:
- CNN 特征提取:预训练的 ResNet50 模型(不包括最终分类层)从每张图像中提取高维特征向量。
- 分词和预处理:描述被清理、分词并转换为序列,以便输入到 RNN。
- RNN 模型:RNN 使用 LSTM 层逐字生成描述。每个单词的预测都基于先前的单词和图像特征向量。
- 训练:模型训练以最小化分类交叉熵损失,生成的序列与真实描述序列进行比较。
评估
模型为测试图像生成描述,并使用 BERT 基于的相似度模型 计算生成描述与真实描述之间的相似度。
示例评估输出
对于每个测试图像,模型输出:
- 预测的描述
- 真实的描述
- 它们之间的相似度分数
示例结果
Notebook 包含显示一些测试图像及其预测描述和相似度分数的代码。
未来改进
- Beam Search 解码:实现 Beam Search 可以提高生成描述的质量,通过在每一步考虑多个候选描述。
- 注意力机制:添加注意力层可以使模型在生成不同单词时关注图像的不同部分。
- 微调 BERT 进行相似度评分:在图像描述生成任务上微调 BERT 可以获得更好的相似度度量。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
抖音用户行为数据集
(自用)本数据集搜集并收录了122539条2022年7月24日至31日的一周时间内,1000名抖音用户观看短视频的行为记录数据,每条数据都包含6个词条,包括用户ID、视频ID、视频主题、是否喜欢、是否转发、时间戳等数据。
阿里云天池 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
NACC
NACC(National Alzheimer's Coordinating Center)数据集包含了来自美国各地的阿尔茨海默病研究中心的临床和神经病理学数据。该数据集主要用于研究阿尔茨海默病和其他相关痴呆症的进展和治疗。数据包括患者的临床评估、认知测试、神经影像学数据、遗传信息和病理学报告等。
naccdata.org 收录