five

patomp/thai-mscoco-2014-captions

收藏
Hugging Face2023-05-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/patomp/thai-mscoco-2014-captions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过将MS COCO 2014数据集的图像描述翻译成泰语而构建的。数据集包含三个部分:训练集、验证集和测试集。每个部分都包含图像、文件路径、句子ID、文件名、图像ID、数据集分割、句子标记、原始句子、句子ID、COCO ID以及泰语句子等特征。数据集的总下载大小为20158273111字节,总数据集大小为20509417374.165字节。
提供机构:
patomp
原始信息汇总

数据集概述

数据集特征

  • image: 图像数据
  • filepath: 字符串类型,文件路径
  • sentids: 整数列表
  • filename: 字符串类型,文件名
  • imgid: 整数类型,图像ID
  • split: 字符串类型,数据集分割类型(如train, validation, test)
  • sentences_tokens: 字符串列表的列表,句子分词
  • sentences_raw: 字符串列表,原始句子
  • sentences_sentid: 整数列表,句子ID
  • cocoid: 整数类型,COCO数据集ID
  • th_sentences_raw: 字符串序列,泰语原始句子

数据集分割

  • train: 包含113287个样本,总大小为18882795327.165字节
  • validation: 包含5000个样本,总大小为807387321.0字节
  • test: 包含5000个样本,总大小为819234726.0字节

数据集大小

  • 下载大小: 20158273111字节
  • 数据集总大小: 20509417374.165字节

数据集使用示例

python from datasets import load_dataset dataset = load_dataset("patomp/thai-mscoco-2014-captions")

数据集构造

该数据集是通过将MS COCO 2014数据集的标注翻译成泰语构建的,使用VISTEC-depa泰国人工智能研究所提供的NMT模型进行翻译。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作