Vista

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/Oztobuzz/Vista

下载链接

链接失效反馈

官方服务：

资源简介：

Vista数据集是一个包含超过700,000个越南语视觉-语言样本的开源数据集，由Gemini Pro创建。该数据集使用了多种提示工程技术，如少量学习、基于标题的提示和基于图像的提示。数据集分为多个子集，每个子集使用不同的方法进行数据生成和处理。

The Vista dataset is an open-source dataset comprising over 700,000 Vietnamese visual-language samples, created by Gemini Pro. This dataset employs various prompt engineering techniques, such as few-shot learning, caption-based prompting, and image-based prompting. The dataset is divided into multiple subsets, each utilizing different methods for data generation and processing.

创建时间：

2024-04-01

原始信息汇总

数据集概述

名称： Vista

描述： 该数据集包含超过700,000个越南语视觉-语言样本，由Gemini Pro创建。数据集采用了多种提示工程技术，包括少样本学习、基于标题的提示和基于图像的提示。

数据来源与处理：

COCO数据集： 使用Llava风格的提示生成数据。
ShareGPT4V数据集： 使用翻译提示。
数据筛选： 移除了任何汉字、日文和韩文字符，并通过过滤高困惑度样本进行数据精炼。

数据集结构

数据集分为五个子集，每个子集具有不同的训练和验证分割，以及采用的数据生成方法：

子集	分割	方法	大小
Vi-LLAVA对话	训练	基于标题	107,052
	验证		4,550
Vi-LLAVA复杂推理	训练	基于标题	112,650
	验证		4,771
Vi-LLAVA细节描述	训练	基于标题	111,153
	验证		4,714
Vi-ShareGPT4V		翻译	96,913
Vi-WIT		基于标题和图像	264,831
总计			706,634

数据处理

Vi-LLAVA： 遵循Vi-LLAVA/文件夹中的指示。
翻译ShareGPT4V： 使用bash scripts/translate_shareGPT4V.sh脚本。
WIT： 遵循WIT/文件夹中的指示。
过滤困惑度： 使用特定的Python脚本进行困惑度计算和过滤。

数据集注意事项

个人和敏感信息： 数据集中不包含任何个人或敏感信息。
偏见、风险和限制： 数据集可能因数据来源而包含偏见，用户在使用时应意识到这些潜在偏见。

许可证

数据集根据MIT许可证发布。

搜集汇总

数据集介绍

构建方式

Vista数据集由Gemini Pro构建，包含超过700,000个越南语视觉语言样本。该数据集通过多种提示工程技术生成，包括少样本学习、基于标题的提示和基于图像的提示。具体而言，对于COCO数据集，采用了Llava风格的提示生成数据；对于ShareGPT4V数据集，则使用了翻译提示。数据集的构建过程中，还通过过滤包含高困惑度样本的方式进行了精炼，并移除了任何汉字、日文和韩文字符。

使用方法

Vista数据集的使用方法多样，用户可以根据具体需求选择不同的子集进行训练和验证。对于Vi-LLAVA子集，用户可以参考提供的文件夹中的说明进行操作；对于ShareGPT4V子集，可以通过运行提供的脚本进行翻译处理。此外，数据集还提供了困惑度过滤的示例代码，用户可以根据需要调整过滤阈值，以确保数据的质量。

背景与挑战

背景概述

Vista数据集由Gemini Pro创建，包含了超过700,000个越南语视觉-语言样本，旨在推动越南语在视觉-语言领域的研究。该数据集通过多种提示工程技术，如少样本学习、基于标题的提示和基于图像的提示，生成了丰富的数据。特别地，对于COCO数据集，采用了Llava风格的提示，而对于ShareGPT4V数据集，则使用了翻译提示。数据集的构建过程中，还进行了去重和过滤，确保了数据的质量。Vista数据集的发布，标志着越南语在视觉-语言多模态研究领域的重要进展，为相关研究提供了宝贵的资源。

当前挑战

Vista数据集在构建过程中面临了多项挑战。首先，数据来源的多样性导致了潜在的偏见问题，尤其是在数据收集和处理过程中，可能引入了文化或语言上的偏差。其次，数据的去重和过滤过程复杂，尤其是通过困惑度（perplexity）进行过滤时，如何设定合理的阈值以确保数据质量是一个技术难题。此外，数据集的规模庞大，如何在保证数据多样性的同时，有效地管理和处理这些数据，也是一项重要的挑战。最后，尽管数据集不包含个人或敏感信息，但在使用过程中，如何确保数据的隐私和安全，仍需进一步关注。

常用场景

经典使用场景

Vista数据集以其丰富的越南语视觉-语言样本，成为多模态学习和跨语言理解领域的经典工具。该数据集通过采用少样本学习、基于标题的提示和基于图像的提示等技术，生成了超过70万条样本，特别适用于训练和验证越南语视觉-语言模型。其子集如Vi-LLAVA和Vi-ShareGPT4V，分别通过基于标题的提示和翻译提示，提供了丰富的训练数据，广泛应用于视觉问答、图像描述生成等任务。

解决学术问题

Vista数据集有效解决了越南语视觉-语言数据稀缺的问题，为多模态学习提供了宝贵的资源。通过其大规模的样本，研究人员能够探索和验证跨语言视觉理解的复杂性，推动了越南语在自然语言处理和计算机视觉交叉领域的研究进展。此外，数据集的精细过滤和去偏处理，确保了数据的高质量和可靠性，为学术研究提供了坚实的基础。

实际应用

Vista数据集在实际应用中展现了广泛的价值，尤其在越南语的图像识别、视觉问答系统和多模态对话生成等领域。例如，该数据集可用于开发越南语的智能客服系统，通过图像和语言的结合，提供更精准的服务。此外，其在教育领域的应用也颇具潜力，如通过视觉辅助工具帮助学习者更好地理解复杂的概念。

数据集最近研究