damerajee/hindi_VQA
收藏Hugging Face2024-06-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/damerajee/hindi_VQA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集经过过滤以更加平衡,并通过处理生成句子嵌入。嵌入是使用预训练的句子转换模型生成的。然后,对嵌入进行KMeans聚类以将相似的答案分组。最后,应用t-SNE降低嵌入的维度以便于可视化。生成的图显示了句子嵌入的聚类,可用于进一步分析和解释。此外,通过从每个聚类中选择1k样本来创建了一个平衡的数据集。
该数据集经过过滤以更加平衡,并通过处理生成句子嵌入。嵌入是使用预训练的句子转换模型生成的。然后,对嵌入进行KMeans聚类以将相似的答案分组。最后,应用t-SNE降低嵌入的维度以便于可视化。生成的图显示了句子嵌入的聚类,可用于进一步分析和解释。此外,通过从每个聚类中选择1k样本来创建了一个平衡的数据集。
提供机构:
damerajee
原始信息汇总
数据集概述
数据集特征
- image:图像数据类型。
- conversations:列表类型,包含:
- role:字符串数据类型。
- content:字符串数据类型。
- question:字符串数据类型。
- answer:字符串数据类型。
数据集分割
- train:训练集,包含5000个样本,数据大小为841046431.2137573字节。
数据集大小
- 下载大小:821383522字节。
- 数据集大小:841046431.2137573字节。
配置
- default:配置名称,包含训练数据文件,路径为
data/train-*。
许可证
- cc-by-4.0
任务类别
- visual-question-answering
语言
- hi
大小类别
- 1K<n<10K



