mmevol-zh-hant

Hugging Face2024-12-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/syntaxsynth/mmevol-zh-hant

下载链接

链接失效反馈

官方服务：

资源简介：

MMEvol数据集是一个多模态数据集，包含文本和图像信息。文本部分包括对话内容，图像部分则包含多种来源的图片。数据集被分为训练集和验证集，分别包含21000和1149个样本。数据集的图像来源多样，主要来自COCO、Q-Instruct-DB等数据集。数据集的主要用途是训练和验证多语言视觉语言模型，特别是将英文OCR任务的响应翻译成繁体中文。数据集的翻译过程未经过人工监督，因此可能存在一些错误。

创建时间：

2024-11-27

原始信息汇总

MMEvol - Translated Chinese Traditional

数据集概述

数据集名称: MMEvol - Translated Chinese Traditional
数据集来源: 由Tongyi-ConvAI/MMEvol翻译而来，使用yentinglin/Llama-3-Taiwan-70B-Instruct从英文翻译为繁体中文。

数据集结构

特征:
- id: 字符串类型
- messages: 列表类型
  - content: 列表类型
    - index: 整数类型
    - text: 字符串类型
    - type: 字符串类型
  - role: 字符串类型
- images: 图像序列

数据集划分

train:
- 样本数量: 21000
- 字节数: 2412279730
validate:
- 样本数量: 1149
- 字节数: 200225417

数据集大小

下载大小: 2454908231 字节
数据集大小: 2612505147 字节

数据集配置

配置名称: default
- 数据文件:
  - train: data/train-*
  - validate: data/validate-*

许可证

许可证: apache-2.0

任务类别

文本生成
图像到文本

语言

语言: 中文

图像来源分布

数据集	数量	百分比
coco	6598	29.8%
Q-Instruct-DB	5856	26.4%
clevr	2383	10.8%
chartqa	1733	7.8%
hfdata	1296	5.9%
geo170k	706	3.2%
data_engine	698	3.2%
mathvision	644	2.9%
docvqa	600	2.7%
alfworld	401	1.8%
arxivqa	337	1.5%
design2code	324	1.5%
allava_vflan	314	1.4%
ai2d	259	1.2%

注意事项

原始图像仅包含英文OCR任务，但响应为繁体中文。理想情况下，应为中文OCR任务，以便视觉语言对齐。然而，该数据集的主要目的是对齐（SFT）LLMs，使其从现有的视觉语言模型输出繁体中文字符。
MMEvol及其翻译过程未经人工监督，因此如果仔细检查，可能会发现一些错误。这并不是一个高质量的数据集，而是一个创建繁体中文VLM的起点。

搜集汇总

数据集介绍

构建方式

mmevol-zh-hant数据集是从Tongyi-ConvAI/MMEvol数据集中提取的一个子集，通过使用yentinglin/Llama-3-Taiwan-70B-Instruct模型将英文内容翻译为繁体中文构建而成。该数据集包含了多种图像源，如COCO、Q-Instruct-DB等，涵盖了广泛的视觉理解任务。翻译过程未经过人工监督，因此可能存在一定的错误，但作为构建繁体中文视觉语言模型的起点，具有一定的实验价值。

使用方法

mmevol-zh-hant数据集适用于多种任务，包括文本生成和图像到文本的转换。用户可以通过HuggingFace的datasets库加载该数据集，并根据需要选择训练或验证集进行模型训练和评估。在使用时，建议结合具体的任务需求，如视觉语言模型的微调或多模态模型的训练，以充分利用数据集的多模态特性。

背景与挑战

背景概述

MMEvol-zh-hant数据集是基于Tongyi-ConvAI/MMEvol数据集的子集，通过yentinglin/Llama-3-Taiwan-70B-Instruct模型从英文翻译为繁体中文。该数据集由多个图像源组成，涵盖了从COCO到AI2D等多个领域的图像数据，旨在支持视觉语言模型的训练与评估。其核心研究问题在于如何将现有的视觉语言模型与繁体中文文本进行有效对齐，从而推动多语言视觉理解技术的发展。该数据集的创建时间为2023年，主要研究人员或机构未明确提及，但其对多语言视觉理解领域的贡献不容忽视。

当前挑战

MMEvol-zh-hant数据集在构建过程中面临多项挑战。首先，原始图像仅包含英文OCR任务，而响应为繁体中文，这导致了视觉与语言之间的不一致性，需通过模型对齐来解决。其次，翻译过程完全依赖于自动化工具，未经过人工校验，因此数据集中可能存在一定程度的错误。此外，该数据集的多样性虽然广泛，但某些类别的图像数量较少，可能影响模型的泛化能力。最后，如何确保翻译后的文本与图像内容的高度一致性，仍是该数据集面临的主要挑战之一。

常用场景

经典使用场景

mmevol-zh-hant数据集的经典使用场景主要集中在视觉语言模型的训练与优化。该数据集通过结合多模态信息，特别是图像与文本的交互，为模型提供了丰富的训练样本。其核心应用在于帮助模型理解并生成与图像内容相关的传统中文文本，从而提升多模态任务中的表现，如图像描述生成和视觉问答。

解决学术问题

mmevol-zh-hant数据集解决了多模态学习中视觉与语言对齐的学术难题。通过提供图像与传统中文文本的配对数据，该数据集促进了视觉语言模型在处理中文环境下的多模态任务时的性能提升。其意义在于推动了多语言多模态研究的进展，特别是在非英语语境下的视觉语言理解与生成。

实际应用

在实际应用中，mmevol-zh-hant数据集可用于开发和优化面向中文用户的视觉语言应用，如智能客服、教育辅助工具和多媒体内容生成系统。通过训练模型以理解和生成传统中文文本，这些应用能够更准确地处理和响应用户的视觉输入，提升用户体验和交互效率。

数据集最近研究