five

rileykim/multilingual-multimodal-document

收藏
Hugging Face2026-04-07 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/rileykim/multilingual-multimodal-document
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: image_id dtype: string - name: lang_pair dtype: string - name: target_lang dtype: string - name: cls dtype: string - name: ocr list: - name: box list: float64 - name: text dtype: string - name: merge_ocr list: - name: box list: int64 - name: src_lang dtype: string - name: src_text dtype: string - name: tgt_lang dtype: string - name: tgt_text dtype: string - name: image dtype: image - name: export_index dtype: int64 - name: patimt_id dtype: string splits: - name: train num_bytes: 12403342858 num_examples: 10000 - name: test num_bytes: 650470042 num_examples: 600 download_size: 13052892186 dataset_size: 13053812900 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

数据集信息: 特征字段: - 字段名:id,数据类型:字符串 - 字段名:image_id,数据类型:字符串 - 字段名:语言对(lang_pair),数据类型:字符串 - 字段名:目标语言(target_lang),数据类型:字符串 - 字段名:分类标签(cls),数据类型:字符串 - 字段名:光学字符识别(Optical Character Recognition, OCR),结构为列表,包含子项: - 字段名:box,数据类型:64位浮点型列表 - 字段名:text,数据类型:字符串 - 字段名:merge_ocr,结构为列表,包含子项: - 字段名:box,数据类型:64位整型列表 - 字段名:源语言(src_lang),数据类型:字符串 - 字段名:源文本(src_text),数据类型:字符串 - 字段名:目标语言(tgt_lang),数据类型:字符串 - 字段名:目标文本(tgt_text),数据类型:字符串 - 字段名:image,数据类型:图像 - 字段名:导出索引(export_index),数据类型:64位整型 - 字段名:patimt_id,数据类型:字符串 数据集划分: - 划分名称:训练集(train),字节数:12403342858,样本数量:10000 - 划分名称:测试集(test),字节数:650470042,样本数量:600 下载总大小:13052892186,数据集总大小:13053812900 配置项: - 配置名称:默认配置(default),数据文件: - 训练集划分:文件路径为data/train-* - 测试集划分:文件路径为data/test-*
提供机构:
rileykim
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作