mesolitica/translate-Multi-modal-Self-instruct
收藏Hugging Face2024-08-08 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/translate-Multi-modal-Self-instruct
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question_id
dtype: string
- name: question
dtype: string
- name: image_path
dtype: string
- name: image
dtype: image
- name: answer
dtype: string
- name: question_ms
dtype: string
- name: answer_ms
dtype: string
splits:
- name: train
num_bytes: 5066164810.5
num_examples: 64796
download_size: 363803712
dataset_size: 5066164810.5
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
language:
- en
- ms
---
# Translated https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct
Translate to Malay using https://mesolitica.com/translation Base model, a nice dataset for visual QA charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles.
本数据集为多模态自我指令(Multi-modal Self-instruct)数据集,对应源链接:https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct。本数据集基于https://mesolitica.com/translation 基础模型完成马来语翻译,是适用于视觉问答(Visual QA)任务的优质数据集,可覆盖图表、表格、模拟地图、仪表板、流程图、关系图、平面图以及视觉谜题等多种视觉模态场景。
## 数据集元信息
### 特征字段
该数据集包含以下7个特征字段:
1. question_id:字符串类型,为每个问题分配的唯一标识符
2. question:字符串类型,原始问题文本(英语)
3. image_path:字符串类型,对应视觉素材的文件存储路径
4. image:图像类型,关联的视觉输入素材
5. answer:字符串类型,对应问题的标准英文答案
6. question_ms:字符串类型,问题的马来语译本
7. answer_ms:字符串类型,答案的马来语译本
### 数据划分
仅包含训练集(train)一个数据拆分:
- 数据占用字节数:5066164810.5
- 样本总数量:64796 条
### 数据体量参数
- 下载总大小:363803712 字节
- 本地存储总大小:5066164810.5 字节
### 配置信息
默认配置(config_name: default)下的数据文件为匹配训练集拆分的`data/train-*`通配符匹配文件。
### 支持语言
英语(en)、马来语(ms)
提供机构:
mesolitica



