mmevol-zh-hant|多模态数据数据集|机器翻译数据集

huggingface2024-12-01 更新2024-12-12 收录

多模态数据

机器翻译

下载链接：

https://huggingface.co/datasets/syntaxsynth/mmevol-zh-hant

下载链接

链接失效反馈

资源简介：

MMEvol数据集是一个多模态数据集，包含文本和图像信息。文本部分包括对话内容，图像部分则包含多种来源的图片。数据集被分为训练集和验证集，分别包含21000和1149个样本。数据集的图像来源多样，主要来自COCO、Q-Instruct-DB等数据集。数据集的主要用途是训练和验证多语言视觉语言模型，特别是将英文OCR任务的响应翻译成繁体中文。数据集的翻译过程未经过人工监督，因此可能存在一些错误。

创建时间：

2024-11-27

原始信息汇总

MMEvol - Translated Chinese Traditional

数据集概述

数据集名称: MMEvol - Translated Chinese Traditional
数据集来源: 由Tongyi-ConvAI/MMEvol翻译而来，使用yentinglin/Llama-3-Taiwan-70B-Instruct从英文翻译为繁体中文。

数据集结构

特征:
- id: 字符串类型
- messages: 列表类型
  - content: 列表类型
    - index: 整数类型
    - text: 字符串类型
    - type: 字符串类型
  - role: 字符串类型
- images: 图像序列

数据集划分

train:
- 样本数量: 21000
- 字节数: 2412279730
validate:
- 样本数量: 1149
- 字节数: 200225417

数据集大小

下载大小: 2454908231 字节
数据集大小: 2612505147 字节

数据集配置

配置名称: default
- 数据文件:
  - train: data/train-*
  - validate: data/validate-*

许可证

许可证: apache-2.0

任务类别

文本生成
图像到文本

语言

语言: 中文

图像来源分布

数据集	数量	百分比
coco	6598	29.8%
Q-Instruct-DB	5856	26.4%
clevr	2383	10.8%
chartqa	1733	7.8%
hfdata	1296	5.9%
geo170k	706	3.2%
data_engine	698	3.2%
mathvision	644	2.9%
docvqa	600	2.7%
alfworld	401	1.8%
arxivqa	337	1.5%
design2code	324	1.5%
allava_vflan	314	1.4%
ai2d	259	1.2%

注意事项

原始图像仅包含英文OCR任务，但响应为繁体中文。理想情况下，应为中文OCR任务，以便视觉语言对齐。然而，该数据集的主要目的是对齐（SFT）LLMs，使其从现有的视觉语言模型输出繁体中文字符。
MMEvol及其翻译过程未经人工监督，因此如果仔细检查，可能会发现一些错误。这并不是一个高质量的数据集，而是一个创建繁体中文VLM的起点。

AI搜集汇总

数据集介绍

构建方式

mmevol-zh-hant数据集是从Tongyi-ConvAI/MMEvol数据集中提取的一个子集，通过使用yentinglin/Llama-3-Taiwan-70B-Instruct模型将英文内容翻译为繁体中文构建而成。该数据集包含了多种图像源，如COCO、Q-Instruct-DB等，涵盖了广泛的视觉理解任务。翻译过程未经过人工监督，因此可能存在一定的错误，但作为构建繁体中文视觉语言模型的起点，具有一定的实验价值。

使用方法

mmevol-zh-hant数据集适用于多种任务，包括文本生成和图像到文本的转换。用户可以通过HuggingFace的datasets库加载该数据集，并根据需要选择训练或验证集进行模型训练和评估。在使用时，建议结合具体的任务需求，如视觉语言模型的微调或多模态模型的训练，以充分利用数据集的多模态特性。

背景与挑战

背景概述

MMEvol-zh-hant数据集是基于Tongyi-ConvAI/MMEvol数据集的子集，通过yentinglin/Llama-3-Taiwan-70B-Instruct模型从英文翻译为繁体中文。该数据集由多个图像源组成，涵盖了从COCO到AI2D等多个领域的图像数据，旨在支持视觉语言模型的训练与评估。其核心研究问题在于如何将现有的视觉语言模型与繁体中文文本进行有效对齐，从而推动多语言视觉理解技术的发展。该数据集的创建时间为2023年，主要研究人员或机构未明确提及，但其对多语言视觉理解领域的贡献不容忽视。

当前挑战

MMEvol-zh-hant数据集在构建过程中面临多项挑战。首先，原始图像仅包含英文OCR任务，而响应为繁体中文，这导致了视觉与语言之间的不一致性，需通过模型对齐来解决。其次，翻译过程完全依赖于自动化工具，未经过人工校验，因此数据集中可能存在一定程度的错误。此外，该数据集的多样性虽然广泛，但某些类别的图像数量较少，可能影响模型的泛化能力。最后，如何确保翻译后的文本与图像内容的高度一致性，仍是该数据集面临的主要挑战之一。

常用场景

经典使用场景

mmevol-zh-hant数据集的经典使用场景主要集中在视觉语言模型的训练与优化。该数据集通过结合多模态信息，特别是图像与文本的交互，为模型提供了丰富的训练样本。其核心应用在于帮助模型理解并生成与图像内容相关的传统中文文本，从而提升多模态任务中的表现，如图像描述生成和视觉问答。

解决学术问题

mmevol-zh-hant数据集解决了多模态学习中视觉与语言对齐的学术难题。通过提供图像与传统中文文本的配对数据，该数据集促进了视觉语言模型在处理中文环境下的多模态任务时的性能提升。其意义在于推动了多语言多模态研究的进展，特别是在非英语语境下的视觉语言理解与生成。

实际应用

在实际应用中，mmevol-zh-hant数据集可用于开发和优化面向中文用户的视觉语言应用，如智能客服、教育辅助工具和多媒体内容生成系统。通过训练模型以理解和生成传统中文文本，这些应用能够更准确地处理和响应用户的视觉输入，提升用户体验和交互效率。

数据集最近研究

最新研究方向

在多模态学习领域，mmevol-zh-hant数据集的最新研究方向主要集中在通过视觉与语言的深度融合，提升大型语言模型（LLMs）在处理中文传统文本与图像数据时的表现。该数据集通过将英文OCR任务的响应翻译为繁体中文，旨在实现视觉语言模型的对齐，从而推动多语言视觉理解技术的发展。研究者们正致力于优化翻译过程中的准确性，并探索如何利用该数据集进行模型微调（SFT），以生成更高质量的繁体中文输出。此外，该数据集的开放也为跨语言视觉问答（VQA）和图像描述生成等前沿应用提供了新的研究契机。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集，专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象，包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息，并提供了加载和评估数据集的示例代码。

huggingface 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。