atasoglu/flickr30k-turkish
收藏Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/atasoglu/flickr30k-turkish
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是HuggingFaceM4/flickr30k数据集的机器翻译版本,使用facebook/nllb-200-3.3B翻译模型将其翻译成土耳其语。数据集包含图像、文件名、图像ID、句子ID、句子(包括分词和原始句子)、土耳其语原始句子等特征。数据集分为训练集、验证集和测试集,分别包含29000、1014和1000个样本。数据集的任务类别包括图像到文本、翻译和句子相似性,支持土耳其语和英语。
This dataset is a machine-translated version of the [HuggingFaceM4/flickr30k](https://huggingface.co/datasets/HuggingFaceM4/flickr30k) into Turkish using the [facebook/nllb-200-3.3B](https://huggingface.co/facebook/nllb-200-3.3B) translation model.
提供机构:
atasoglu
原始信息汇总
数据集概述
数据集信息
-
特征:
image: 图像数据filename: 文件名,字符串类型imgid: 图像ID,整数类型sentids: 句子ID列表,整数类型sentences: 句子列表tokens: 分词列表,字符串类型raw: 原始文本,字符串类型imgid: 图像ID,整数类型sentid: 句子ID,整数类型
raw_turkish: 土耳其语文本序列,字符串类型
-
分割:
train: 训练集,包含29000个样本,大小为3843262999字节validation: 验证集,包含1014个样本,大小为141460570.428字节test: 测试集,包含1000个样本,大小为143011292字节
-
下载大小: 4318471070字节
-
数据集大小: 4127734861.428字节
配置
- 默认配置:
train: 数据路径为data/train-*validation: 数据路径为data/validation-*test: 数据路径为data/test-*
许可证
- 类型: 其他
任务类别
- 图像到文本
- 翻译
- 句子相似度
语言
- 土耳其语
- 英语
数据集大小类别
- 10K<n<100K
数据集名称
- pretty_name: flickr30k-tr



