Jotschi/coco-karpathy-simple-en

Name: Jotschi/coco-karpathy-simple-en
Creator: Jotschi
Published: 2024-01-14 13:09:39
License: 暂无描述

Hugging Face2024-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Jotschi/coco-karpathy-simple-en

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含将MS COCO数据集中的描述重新表述为简单英语的文本，以便年幼儿童能够理解。数据集是通过处理MS COCO数据集（Karpathy Split）的注释生成的，使用了Mistal7B模型进行文本重写。数据集的创建目的是为了适应小型语言模型（LLMs）的实验，特别是那些只有有限语料库的模型。数据集适用于LAVIS实验（QFormer训练）与微调的TinyStories 33M LLM。

提供机构：

Jotschi

原始信息汇总

数据集卡片 for MS COCO Karpathy in Simple English

数据集详情

数据集描述

语言(NLP): 英语
许可证: CC BY 4.0

数据集来源

数据集基于以下来源处理：

类型	MD5	URL
训练	aa31ac474cf6250ebb81d18348a07ed8	https://storage.googleapis.com/sfr-vision-language-research/datasets/coco_karpathy_train.json
验证	b273847456ef5580e33713b1f7de52a0	https://storage.googleapis.com/sfr-vision-language-research/datasets/coco_karpathy_val.json
测试	3ff34b0ef2db02d01c37399f6a2a6cd1	https://storage.googleapis.com/sfr-vision-language-research/datasets/coco_karpathy_test.json

MS COCO:

下载: https://cocodataset.org/#download
论文: http://arxiv.org/abs/1405.0312

数据集创建

该数据集是通过处理注释生成的，使用 Mistal7B。

使用的提示：

Rewrite the sentence " + caption + " for a 3 to 4 year old child. Give only one simple sentence. Dont use the word see. Give only a single answer.

应用了一个过滤器，仅存储符合常见输出格式的注释。为了减少包含多个示例句子的机会，应用了一个最佳努力过滤器。

数据集用途

该数据集适用于小型语言模型的实验，特别适合用于 LAVIS 实验（QFormer 训练）与微调的 TinyStories 33M 语言模型。

搜集汇总

数据集介绍

构建方式

在计算机视觉与自然语言处理交叉领域，数据集的构建方式直接影响模型对图像内容的理解与描述能力。Jotschi/coco-karpathy-simple-en数据集基于经典的MS COCO Karpathy分割版本，通过先进的Mistral-7B语言模型对原始标注进行自动化改写。改写过程采用特定提示指令，要求将原始描述转化为适合三至四岁儿童理解的简单英语句子，并避免使用特定词汇，同时通过格式匹配与输出过滤机制确保数据质量与一致性，最终形成一套机器生成的简化英文标注集合。

特点

该数据集的核心特点在于其标注语言的简化和年龄适配性。所有图像描述均被转化为低龄儿童可理解的简单英语，词汇与句法结构经过精心简化，避免了复杂表达。数据集继承了MS COCO的图像内容与Karpathy分割的可靠性，涵盖训练、验证与测试子集，规模适中，适用于资源受限的小型语言模型实验。其标注风格统一，专注于基础视觉概念的口语化描述，为研究视觉语言模型的低复杂度理解与生成任务提供了专门化的语料资源。

使用方法

该数据集主要用于图像描述生成、文本到图像合成等跨模态任务的研究与模型训练。使用者可按照提供的JSON文件链接下载各分割子集，直接集成到现有训练流程中。特别适用于训练或微调参数量较小的语言模型，例如结合TinyStories等轻量级架构进行视觉语言对齐实验。在LAVIS等框架中，该数据集能支持QFormer等模块的训练，帮助模型学习从简化语言到视觉内容的映射关系，提升在受限语言环境下的跨模态理解性能。

背景与挑战

背景概述

在视觉与语言交叉研究领域，图像描述生成任务旨在使机器能够理解图像内容并以自然语言进行表达。MS COCO数据集作为该领域的基石，自2014年由微软团队发布以来，为图像识别与语义理解提供了大规模标注资源。Jotschi/coco-karpathy-simple-en数据集在此基础上，通过利用Mistral-7B模型对Karpathy划分的MS COCO标注进行简化重构，将原始描述转化为适合低龄儿童理解的简单英语，旨在为资源受限的小型语言模型提供适配的训练语料，推动轻量级多模态模型的发展。

当前挑战

该数据集面临的挑战主要集中于两个方面：在领域问题层面，图像描述的简化需在保留核心语义信息的同时，适应儿童认知水平，避免词汇复杂性与句式冗余，这对语言模型的语义压缩与适配能力提出了更高要求；在构建过程层面，依赖大语言模型进行批量改写时，需确保输出格式的一致性，并有效过滤模型可能生成的多余例句，以维持数据质量与标注的纯净度，这涉及提示工程与后处理技术的精细设计。

常用场景

经典使用场景

在视觉语言预训练领域，Jotschi/coco-karpathy-simple-en数据集以其简化的英文标注为特色，为图像描述生成任务提供了独特的实验平台。该数据集基于经典的MS COCO Karpathy划分，通过大语言模型将原始复杂描述转化为适合3至4岁儿童理解的简单句式，有效降低了语言复杂度。研究者常利用该数据集训练轻量级语言模型，特别是在资源受限环境下探索跨模态对齐机制，为图像到文本的生成任务提供纯净且易于解析的语料基础。

实际应用

在实际应用层面，该数据集为儿童教育科技领域提供了直接的技术支持。基于简化描述的图像理解系统能够开发适龄的认知辅助工具，例如智能绘本生成或视觉障碍儿童的场景叙述设备。在嵌入式系统和移动端应用中，轻量化模型结合简单语言标注可实现高效的实时图像描述功能，为无障碍通信和人机交互界面设计提供了可部署的解决方案，拓展了多模态人工智能在普惠性技术中的落地场景。

衍生相关工作

该数据集的衍生研究主要集中在轻量化多模态架构探索领域。以LAVIS框架为代表的视觉语言模型研究团队，常采用此类简化标注数据对Q-Former等跨模态注意力模块进行微调实验。相关工作还包括基于TinyStories等小型语言模型的适配性研究，这些工作通过验证简化语料在参数效率与性能平衡方面的优势，推动了边缘计算场景下视觉语言模型的技术演进，形成了针对资源受限环境的特色研究分支。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集