Indic-LLM-Labs/Laion-Coco-Kn
收藏Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Indic-LLM-Labs/Laion-Coco-Kn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是laion-coco数据集的扩展版本,包含将英文标题翻译成卡纳达语的内容。数据集包含733604个训练样本和14906个测试样本。图像可以直接从Coco页面下载。数据集的特征包括id、url、英文标题、评分和卡纳达语标题。数据集分为测试集和训练集,分别包含14906和733604个样本。数据集的下载大小为156666204字节,总大小为263269685字节。数据集的许可证为MIT,任务类别为视觉问答,支持卡纳达语和英语,规模类别为100K<n<1M。
该数据集是laion-coco数据集的扩展版本,包含将英文标题翻译成卡纳达语的内容。数据集包含733604个训练样本和14906个测试样本。图像可以直接从Coco页面下载。数据集的特征包括id、url、英文标题、评分和卡纳达语标题。数据集分为测试集和训练集,分别包含14906和733604个样本。数据集的下载大小为156666204字节,总大小为263269685字节。数据集的许可证为MIT,任务类别为视觉问答,支持卡纳达语和英语,规模类别为100K<n<1M。
提供机构:
Indic-LLM-Labs
原始信息汇总
数据集概述
数据集信息
- 特征:
id: 字符串类型url: 字符串类型eng_caption: 字符串类型score: 浮点数类型kn_caption: 字符串类型
- 分割:
test: 字节数为5223531,样本数为14906train: 字节数为258046154,样本数为733604
- 下载大小: 156666204字节
- 数据集大小: 263269685字节
配置
- 默认配置:
test: 路径为data/test-*train: 路径为data/train-*
许可证
- MIT许可证
任务类别
- 视觉问答
语言
- 卡纳达语
- 英语
大小类别
- 100K<n<1M



