Vista
收藏github2024-05-14 更新2024-05-31 收录
下载链接:
https://github.com/Oztobuzz/Vista
下载链接
链接失效反馈官方服务:
资源简介:
Vista数据集是一个包含超过700,000个越南语视觉-语言样本的开源数据集,由Gemini Pro创建。该数据集使用了多种提示工程技术,如少量学习、基于标题的提示和基于图像的提示。数据集分为多个子集,每个子集使用不同的方法进行数据生成和处理。
The Vista dataset is an open-source dataset comprising over 700,000 Vietnamese visual-language samples, created by Gemini Pro. This dataset employs various prompt engineering techniques, such as few-shot learning, caption-based prompting, and image-based prompting. The dataset is divided into multiple subsets, each utilizing different methods for data generation and processing.
创建时间:
2024-04-01
原始信息汇总
数据集概述
名称: Vista
描述: 该数据集包含超过700,000个越南语视觉-语言样本,由Gemini Pro创建。数据集采用了多种提示工程技术,包括少样本学习、基于标题的提示和基于图像的提示。
数据来源与处理:
- COCO数据集: 使用Llava风格的提示生成数据。
- ShareGPT4V数据集: 使用翻译提示。
- 数据筛选: 移除了任何汉字、日文和韩文字符,并通过过滤高困惑度样本进行数据精炼。
数据集结构
数据集分为五个子集,每个子集具有不同的训练和验证分割,以及采用的数据生成方法:
| 子集 | 分割 | 方法 | 大小 |
|---|---|---|---|
| Vi-LLAVA对话 | 训练 | 基于标题 | 107,052 |
| 验证 | 4,550 | ||
| Vi-LLAVA复杂推理 | 训练 | 基于标题 | 112,650 |
| 验证 | 4,771 | ||
| Vi-LLAVA细节描述 | 训练 | 基于标题 | 111,153 |
| 验证 | 4,714 | ||
| Vi-ShareGPT4V | 翻译 | 96,913 | |
| Vi-WIT | 基于标题和图像 | 264,831 | |
| 总计 | 706,634 |
数据处理
- Vi-LLAVA: 遵循Vi-LLAVA/文件夹中的指示。
- 翻译ShareGPT4V: 使用
bash scripts/translate_shareGPT4V.sh脚本。 - WIT: 遵循WIT/文件夹中的指示。
- 过滤困惑度: 使用特定的Python脚本进行困惑度计算和过滤。
数据集注意事项
- 个人和敏感信息: 数据集中不包含任何个人或敏感信息。
- 偏见、风险和限制: 数据集可能因数据来源而包含偏见,用户在使用时应意识到这些潜在偏见。
许可证
数据集根据MIT许可证发布。
搜集汇总
数据集介绍

构建方式
Vista数据集由Gemini Pro构建,包含超过700,000个越南语视觉语言样本。该数据集通过多种提示工程技术生成,包括少样本学习、基于标题的提示和基于图像的提示。具体而言,对于COCO数据集,采用了Llava风格的提示生成数据;对于ShareGPT4V数据集,则使用了翻译提示。数据集的构建过程中,还通过过滤包含高困惑度样本的方式进行了精炼,并移除了任何汉字、日文和韩文字符。
使用方法
Vista数据集的使用方法多样,用户可以根据具体需求选择不同的子集进行训练和验证。对于Vi-LLAVA子集,用户可以参考提供的文件夹中的说明进行操作;对于ShareGPT4V子集,可以通过运行提供的脚本进行翻译处理。此外,数据集还提供了困惑度过滤的示例代码,用户可以根据需要调整过滤阈值,以确保数据的质量。
背景与挑战
背景概述
Vista数据集由Gemini Pro创建,包含了超过700,000个越南语视觉-语言样本,旨在推动越南语在视觉-语言领域的研究。该数据集通过多种提示工程技术,如少样本学习、基于标题的提示和基于图像的提示,生成了丰富的数据。特别地,对于COCO数据集,采用了Llava风格的提示,而对于ShareGPT4V数据集,则使用了翻译提示。数据集的构建过程中,还进行了去重和过滤,确保了数据的质量。Vista数据集的发布,标志着越南语在视觉-语言多模态研究领域的重要进展,为相关研究提供了宝贵的资源。
当前挑战
Vista数据集在构建过程中面临了多项挑战。首先,数据来源的多样性导致了潜在的偏见问题,尤其是在数据收集和处理过程中,可能引入了文化或语言上的偏差。其次,数据的去重和过滤过程复杂,尤其是通过困惑度(perplexity)进行过滤时,如何设定合理的阈值以确保数据质量是一个技术难题。此外,数据集的规模庞大,如何在保证数据多样性的同时,有效地管理和处理这些数据,也是一项重要的挑战。最后,尽管数据集不包含个人或敏感信息,但在使用过程中,如何确保数据的隐私和安全,仍需进一步关注。
常用场景
经典使用场景
Vista数据集以其丰富的越南语视觉-语言样本,成为多模态学习和跨语言理解领域的经典工具。该数据集通过采用少样本学习、基于标题的提示和基于图像的提示等技术,生成了超过70万条样本,特别适用于训练和验证越南语视觉-语言模型。其子集如Vi-LLAVA和Vi-ShareGPT4V,分别通过基于标题的提示和翻译提示,提供了丰富的训练数据,广泛应用于视觉问答、图像描述生成等任务。
解决学术问题
Vista数据集有效解决了越南语视觉-语言数据稀缺的问题,为多模态学习提供了宝贵的资源。通过其大规模的样本,研究人员能够探索和验证跨语言视觉理解的复杂性,推动了越南语在自然语言处理和计算机视觉交叉领域的研究进展。此外,数据集的精细过滤和去偏处理,确保了数据的高质量和可靠性,为学术研究提供了坚实的基础。
实际应用
Vista数据集在实际应用中展现了广泛的价值,尤其在越南语的图像识别、视觉问答系统和多模态对话生成等领域。例如,该数据集可用于开发越南语的智能客服系统,通过图像和语言的结合,提供更精准的服务。此外,其在教育领域的应用也颇具潜力,如通过视觉辅助工具帮助学习者更好地理解复杂的概念。
数据集最近研究
最新研究方向
Vista数据集作为越南语视觉语言领域的重要资源,近年来在多模态学习与跨语言理解方面展现出显著的研究潜力。该数据集通过采用少样本学习、基于标题的提示和基于图像的提示等技术,为越南语的视觉语言任务提供了丰富的样本。特别是在多模态对话生成和复杂推理任务中,Vista数据集的结构化子集如Vi-LLAVA和Vi-ShareGPT4V,为研究者提供了探索越南语与视觉信息结合的新途径。此外,数据集的过滤机制和去偏处理进一步提升了其在实际应用中的可靠性,推动了越南语多模态系统的开发与优化。
以上内容由遇见数据集搜集并总结生成



