five

Jotschi/visual_genome-simple-en

收藏
Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Jotschi/visual_genome-simple-en
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含重新表述为简单英语的标题,以便幼儿理解。数据集基于Visual Genome的注释,通过Mistal7B模型处理生成,并应用了过滤器以确保输出格式的一致性。数据集适用于小型LLM的实验,特别是用于LAVIS实验(QFormer训练)与微调的TinyStories 33M LLM。

该数据集包含重新表述为简单英语的标题,以便幼儿理解。数据集基于Visual Genome的注释,通过Mistal7B模型处理生成,并应用了过滤器以确保输出格式的一致性。数据集适用于小型LLM的实验,特别是用于LAVIS实验(QFormer训练)与微调的TinyStories 33M LLM。
提供机构:
Jotschi
原始信息汇总

数据集卡片 for Visual Genome Annotations in Simple English

数据集详情

数据集描述

  • 语言(NLP): 英语
  • 许可证: CC BY 4.0

数据集来源

处理后的 Visual Genome 标题基于以下源文件:

  • vg_caption.json (https://storage.googleapis.com/sfr-vision-language-research/LAVIS/datasets/visual_genome/vg_caption.json)

Visual Genome:

  • 下载链接: https://homes.cs.washington.edu/~ranjay/visualgenome/index.html
  • 论文链接: https://link.springer.com/article/10.1007/s11263-016-0981-7

数据集创建

该数据集是通过处理 Mistal7B 的注释生成的。

使用的提示:

Rewrite the sentence " + caption + " for a 3 to 4 year old child. Give only one simple sentence. Dont use the word see. Give only a single answer.

应用了一个过滤器,仅存储符合常见输出格式的标题。尽力应用了一个过滤器,以减少输出中包含多个示例句子的可能性。

数据集理由

该数据集适用于小型LLM的实验,这些LLM只有较小的语料库。该数据集适用于LAVIS实验(QFormer训练)与微调的TinyStories 33M LLM。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作