mesolitica/translate-Multi-modal-Self-instruct

Name: mesolitica/translate-Multi-modal-Self-instruct
Creator: mesolitica
Published: 2024-08-08 04:26:04
License: 暂无描述

Hugging Face2024-08-08 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/mesolitica/translate-Multi-modal-Self-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question_id dtype: string - name: question dtype: string - name: image_path dtype: string - name: image dtype: image - name: answer dtype: string - name: question_ms dtype: string - name: answer_ms dtype: string splits: - name: train num_bytes: 5066164810.5 num_examples: 64796 download_size: 363803712 dataset_size: 5066164810.5 configs: - config_name: default data_files: - split: train path: data/train-* language: - en - ms --- # Translated https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct Translate to Malay using https://mesolitica.com/translation Base model, a nice dataset for visual QA charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles.

本数据集为多模态自我指令（Multi-modal Self-instruct）数据集，对应源链接：https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct。本数据集基于https://mesolitica.com/translation 基础模型完成马来语翻译，是适用于视觉问答（Visual QA）任务的优质数据集，可覆盖图表、表格、模拟地图、仪表板、流程图、关系图、平面图以及视觉谜题等多种视觉模态场景。 ## 数据集元信息 ### 特征字段该数据集包含以下7个特征字段： 1. question_id：字符串类型，为每个问题分配的唯一标识符 2. question：字符串类型，原始问题文本（英语） 3. image_path：字符串类型，对应视觉素材的文件存储路径 4. image：图像类型，关联的视觉输入素材 5. answer：字符串类型，对应问题的标准英文答案 6. question_ms：字符串类型，问题的马来语译本 7. answer_ms：字符串类型，答案的马来语译本 ### 数据划分仅包含训练集（train）一个数据拆分： - 数据占用字节数：5066164810.5 - 样本总数量：64796 条 ### 数据体量参数 - 下载总大小：363803712 字节 - 本地存储总大小：5066164810.5 字节 ### 配置信息默认配置（config_name: default）下的数据文件为匹配训练集拆分的`data/train-*`通配符匹配文件。 ### 支持语言英语（en）、马来语（ms）

提供机构：

mesolitica

5,000+

优质数据集

54 个

任务类型

进入经典数据集