patomp/thai-mscoco-2014-captions
收藏Hugging Face2023-05-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/patomp/thai-mscoco-2014-captions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过将MS COCO 2014数据集的图像描述翻译成泰语而构建的。数据集包含三个部分:训练集、验证集和测试集。每个部分都包含图像、文件路径、句子ID、文件名、图像ID、数据集分割、句子标记、原始句子、句子ID、COCO ID以及泰语句子等特征。数据集的总下载大小为20158273111字节,总数据集大小为20509417374.165字节。
提供机构:
patomp
原始信息汇总
数据集概述
数据集特征
- image: 图像数据
- filepath: 字符串类型,文件路径
- sentids: 整数列表
- filename: 字符串类型,文件名
- imgid: 整数类型,图像ID
- split: 字符串类型,数据集分割类型(如train, validation, test)
- sentences_tokens: 字符串列表的列表,句子分词
- sentences_raw: 字符串列表,原始句子
- sentences_sentid: 整数列表,句子ID
- cocoid: 整数类型,COCO数据集ID
- th_sentences_raw: 字符串序列,泰语原始句子
数据集分割
- train: 包含113287个样本,总大小为18882795327.165字节
- validation: 包含5000个样本,总大小为807387321.0字节
- test: 包含5000个样本,总大小为819234726.0字节
数据集大小
- 下载大小: 20158273111字节
- 数据集总大小: 20509417374.165字节
数据集使用示例
python from datasets import load_dataset dataset = load_dataset("patomp/thai-mscoco-2014-captions")
数据集构造
该数据集是通过将MS COCO 2014数据集的标注翻译成泰语构建的,使用VISTEC-depa泰国人工智能研究所提供的NMT模型进行翻译。



