patomp/thai-mscoco-2014-captions

Name: patomp/thai-mscoco-2014-captions
Creator: patomp
Published: 2023-05-02 15:52:54
License: 暂无描述

Hugging Face2023-05-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/patomp/thai-mscoco-2014-captions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过将MS COCO 2014数据集的图像描述翻译成泰语而构建的。数据集包含三个部分：训练集、验证集和测试集。每个部分都包含图像、文件路径、句子ID、文件名、图像ID、数据集分割、句子标记、原始句子、句子ID、COCO ID以及泰语句子等特征。数据集的总下载大小为20158273111字节，总数据集大小为20509417374.165字节。

提供机构：

patomp

原始信息汇总

数据集概述

数据集特征

image: 图像数据
filepath: 字符串类型，文件路径
sentids: 整数列表
filename: 字符串类型，文件名
imgid: 整数类型，图像ID
split: 字符串类型，数据集分割类型（如train, validation, test）
sentences_tokens: 字符串列表的列表，句子分词
sentences_raw: 字符串列表，原始句子
sentences_sentid: 整数列表，句子ID
cocoid: 整数类型，COCO数据集ID
th_sentences_raw: 字符串序列，泰语原始句子

数据集分割

train: 包含113287个样本，总大小为18882795327.165字节
validation: 包含5000个样本，总大小为807387321.0字节
test: 包含5000个样本，总大小为819234726.0字节

数据集大小

下载大小: 20158273111字节
数据集总大小: 20509417374.165字节

数据集使用示例

python from datasets import load_dataset dataset = load_dataset("patomp/thai-mscoco-2014-captions")

数据集构造

该数据集是通过将MS COCO 2014数据集的标注翻译成泰语构建的，使用VISTEC-depa泰国人工智能研究所提供的NMT模型进行翻译。

5,000+

优质数据集

54 个

任务类型

进入经典数据集