damerajee/hindi_VQA

Name: damerajee/hindi_VQA
Creator: damerajee
Published: 2024-06-02 07:54:06
License: 暂无描述

Hugging Face2024-06-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/damerajee/hindi_VQA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集经过过滤以更加平衡，并通过处理生成句子嵌入。嵌入是使用预训练的句子转换模型生成的。然后，对嵌入进行KMeans聚类以将相似的答案分组。最后，应用t-SNE降低嵌入的维度以便于可视化。生成的图显示了句子嵌入的聚类，可用于进一步分析和解释。此外，通过从每个聚类中选择1k样本来创建了一个平衡的数据集。

提供机构：

damerajee

原始信息汇总

数据集概述

数据集特征

image：图像数据类型。
conversations：列表类型，包含：
- role：字符串数据类型。
- content：字符串数据类型。
question：字符串数据类型。
answer：字符串数据类型。

数据集分割

train：训练集，包含5000个样本，数据大小为841046431.2137573字节。

数据集大小

下载大小：821383522字节。
数据集大小：841046431.2137573字节。

配置

default：配置名称，包含训练数据文件，路径为data/train-*。

许可证

cc-by-4.0

任务类别

visual-question-answering

语言

大小类别

1K<n<10K

5,000+

优质数据集

54 个

任务类型

进入经典数据集