five

atasoglu/flickr30k-turkish

收藏
Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/atasoglu/flickr30k-turkish
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是HuggingFaceM4/flickr30k数据集的机器翻译版本,使用facebook/nllb-200-3.3B翻译模型将其翻译成土耳其语。数据集包含图像、文件名、图像ID、句子ID、句子(包括分词和原始句子)、土耳其语原始句子等特征。数据集分为训练集、验证集和测试集,分别包含29000、1014和1000个样本。数据集的任务类别包括图像到文本、翻译和句子相似性,支持土耳其语和英语。

This dataset is a machine-translated version of the [HuggingFaceM4/flickr30k](https://huggingface.co/datasets/HuggingFaceM4/flickr30k) into Turkish using the [facebook/nllb-200-3.3B](https://huggingface.co/facebook/nllb-200-3.3B) translation model.
提供机构:
atasoglu
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • image: 图像数据
    • filename: 文件名,字符串类型
    • imgid: 图像ID,整数类型
    • sentids: 句子ID列表,整数类型
    • sentences: 句子列表
      • tokens: 分词列表,字符串类型
      • raw: 原始文本,字符串类型
      • imgid: 图像ID,整数类型
      • sentid: 句子ID,整数类型
    • raw_turkish: 土耳其语文本序列,字符串类型
  • 分割:

    • train: 训练集,包含29000个样本,大小为3843262999字节
    • validation: 验证集,包含1014个样本,大小为141460570.428字节
    • test: 测试集,包含1000个样本,大小为143011292字节
  • 下载大小: 4318471070字节

  • 数据集大小: 4127734861.428字节

配置

  • 默认配置:
    • train: 数据路径为data/train-*
    • validation: 数据路径为data/validation-*
    • test: 数据路径为data/test-*

许可证

  • 类型: 其他

任务类别

  • 图像到文本
  • 翻译
  • 句子相似度

语言

  • 土耳其语
  • 英语

数据集大小类别

  • 10K<n<100K

数据集名称

  • pretty_name: flickr30k-tr
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作