Jotschi/visual_genome-simple-en
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Jotschi/visual_genome-simple-en
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含重新表述为简单英语的标题,以便幼儿理解。数据集基于Visual Genome的注释,通过Mistal7B模型处理生成,并应用了过滤器以确保输出格式的一致性。数据集适用于小型LLM的实验,特别是用于LAVIS实验(QFormer训练)与微调的TinyStories 33M LLM。
该数据集包含重新表述为简单英语的标题,以便幼儿理解。数据集基于Visual Genome的注释,通过Mistal7B模型处理生成,并应用了过滤器以确保输出格式的一致性。数据集适用于小型LLM的实验,特别是用于LAVIS实验(QFormer训练)与微调的TinyStories 33M LLM。
提供机构:
Jotschi
原始信息汇总
数据集卡片 for Visual Genome Annotations in Simple English
数据集详情
数据集描述
- 语言(NLP): 英语
- 许可证: CC BY 4.0
数据集来源
处理后的 Visual Genome 标题基于以下源文件:
vg_caption.json(https://storage.googleapis.com/sfr-vision-language-research/LAVIS/datasets/visual_genome/vg_caption.json)
Visual Genome:
- 下载链接: https://homes.cs.washington.edu/~ranjay/visualgenome/index.html
- 论文链接: https://link.springer.com/article/10.1007/s11263-016-0981-7
数据集创建
该数据集是通过处理 Mistal7B 的注释生成的。
使用的提示:
Rewrite the sentence " + caption + " for a 3 to 4 year old child. Give only one simple sentence. Dont use the word see. Give only a single answer.
应用了一个过滤器,仅存储符合常见输出格式的标题。尽力应用了一个过滤器,以减少输出中包含多个示例句子的可能性。
数据集理由
该数据集适用于小型LLM的实验,这些LLM只有较小的语料库。该数据集适用于LAVIS实验(QFormer训练)与微调的TinyStories 33M LLM。



