five

mesolitica/translate-Multi-modal-Self-instruct

收藏
Hugging Face2024-08-08 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/translate-Multi-modal-Self-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: question_id dtype: string - name: question dtype: string - name: image_path dtype: string - name: image dtype: image - name: answer dtype: string - name: question_ms dtype: string - name: answer_ms dtype: string splits: - name: train num_bytes: 5066164810.5 num_examples: 64796 download_size: 363803712 dataset_size: 5066164810.5 configs: - config_name: default data_files: - split: train path: data/train-* language: - en - ms --- # Translated https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct Translate to Malay using https://mesolitica.com/translation Base model, a nice dataset for visual QA charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles.

本数据集为多模态自我指令(Multi-modal Self-instruct)数据集,对应源链接:https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct。本数据集基于https://mesolitica.com/translation 基础模型完成马来语翻译,是适用于视觉问答(Visual QA)任务的优质数据集,可覆盖图表、表格、模拟地图、仪表板、流程图、关系图、平面图以及视觉谜题等多种视觉模态场景。 ## 数据集元信息 ### 特征字段 该数据集包含以下7个特征字段: 1. question_id:字符串类型,为每个问题分配的唯一标识符 2. question:字符串类型,原始问题文本(英语) 3. image_path:字符串类型,对应视觉素材的文件存储路径 4. image:图像类型,关联的视觉输入素材 5. answer:字符串类型,对应问题的标准英文答案 6. question_ms:字符串类型,问题的马来语译本 7. answer_ms:字符串类型,答案的马来语译本 ### 数据划分 仅包含训练集(train)一个数据拆分: - 数据占用字节数:5066164810.5 - 样本总数量:64796 条 ### 数据体量参数 - 下载总大小:363803712 字节 - 本地存储总大小:5066164810.5 字节 ### 配置信息 默认配置(config_name: default)下的数据文件为匹配训练集拆分的`data/train-*`通配符匹配文件。 ### 支持语言 英语(en)、马来语(ms)
提供机构:
mesolitica
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作