Vietnamese-ShareGPT4V
收藏github2024-03-29 更新2024-05-31 收录
下载链接:
https://github.com/Khang-9966/Vietnamese-LLM-instruction-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含翻译成越南语的问题和答案,适合视觉问答和一般问答任务。
This dataset comprises questions and answers translated into Vietnamese, suitable for visual question answering and general question answering tasks.
创建时间:
2024-03-13
原始信息汇总
数据集概述
Image-to-Text Datasets
-
Vietnamese-ShareGPT4V
- 任务: 视觉问答, 问答
- 语言: 越南语, 英语
- 大小: 102k行
- 描述: 包含翻译成越南语的问题和答案,适用于视觉问答和一般问答任务。
-
Vietnamese-LLaVA-Instruct-150K-gg-translated
- 任务: 视觉问答, 问答
- 语言: 越南语, 英语
- 大小: 150k行
- 描述: 包含翻译成越南语的问题和答案,适用于视觉问答和一般问答任务。
-
Vietnamese-yfcc15m-OpenAICLIP
- 任务: 图像到文本, 文本到图像, 视觉问答
- 语言: 越南语, 英语
- 大小: 15.4M行
- 描述: 提供翻译成越南语的图像和相应文本描述,适用于多种图像和文本任务,包括视觉问答。
Chat Datasets
-
sendo_vietnamese_multiturn_gemini_50k
- 语言: 越南语
- 大小: 50k行
- 描述: 为对话模型设计的越南语多轮聊天数据集。
-
travel-multi-turn-chat-gemini
- 语言: 越南语
- 大小: 34.4k行
- 描述: 专注于旅行相关对话的多轮聊天数据集,适合训练对话模型。
-
tiki-multi-turn-chat-gemini-vietnamese-50k
- 语言: 越南语
- 大小: 50k行
- 描述: 来自Tiki平台的多轮聊天数据集,翻译成越南语。
-
viet-ecommerce-alpaca
- 语言: 越南语
- 大小: 69.3k行
- 描述: 与越南电子商务活动相关的数据集。
-
Vietnamese-argilla-OpenHermesPreferences-66k-gg-translated
- 任务: 文本生成, 问答
- 语言: 越南语, 英语
- 大小: 66k行
- 描述: 翻译成越南语的数据集,专注于文本生成和问答任务。
CoT Datasets
-
Vietnamese-nampdn-ai-tiny-webtext-gg-translated
- 任务: 问答, 文本生成
- 语言: 越南语, 英语
- 大小: 1.85M行
- 描述: 翻译成越南语的网络文本数据集,适合问答和文本生成任务。
-
Vietnamese-1m5-kaist-CoT-gg-translated-unrefined
- 任务: 问答, 文本生成
- 语言: 越南语, 英语
- 大小: 1.5M行
- 描述: 翻译成越南语的Kaist CoT数据集,适合问答和文本生成任务。
-
Vietnamese-mabryCodes-tiny-cot-alpaca-gg-translated
- 任务: 问答, 文本生成
- 语言: 越南语, 英语
- 大小: 500k行
- 描述: 翻译成越南语的GOOD CoT数据集,适合问答和文本生成任务。
DPO Datasets
-
Vietnamese-beyond-rlhf-reward-single-round-gg-translated
- 任务: 问答, 文本生成
- 语言: 越南语, 英语
- 大小: 20k行
- 描述: 翻译成越南语的DPO数据集,适合问答和文本生成任务。
-
Vietnamese-Intel-orca_dpo_pairs-gg-translated
- 任务: 问答, 文本生成
- 语言: 越南语, 英语
- 大小: 13k行
- 描述: 翻译成越南语的DPO数据集,适合问答和文本生成任务。
Math Datasets
-
Vietnamese-395k-meta-math-MetaMathQA-gg-translated
- 任务: 问答
- 语言: 越南语, 英语
- 大小: 395k行
- 标签: 数学, 数学问答, 元数学
- 描述: 包含翻译成越南语的数学相关问题的大型数据集,设计用于问答任务。
-
Vietnamese-nvidia-OpenMathInstruct-1-50k-gg-translated
- 任务: 问答
- 语言: 越南语, 英语
- 大小: 50k行
- 标签: 数学, 数学问答, 元数学
- 描述: 包含翻译成越南语的数学相关问题的大型数据集,设计用于问答任务。
-
Vietnamese-microsoft-orca-math-word-problems-200k-gg-translated
- 任务: 问答
- 语言: 越南语, 英语
- 大小: 200k行
- 描述: 包含翻译成越南语的数学文字问题,适合问答任务。
搜集汇总
数据集介绍

构建方式
Vietnamese-ShareGPT4V数据集的构建基于对原始英文数据集的翻译与本地化处理。研究团队通过将大量视觉问答和普通问答任务中的问题与答案翻译成越南语,确保了数据集在越南语自然语言处理任务中的适用性。数据集的构建过程注重语言的自然流畅性,同时保留了原始数据的语义完整性,使其能够广泛应用于越南语的语言模型微调任务。
特点
Vietnamese-ShareGPT4V数据集以其多语言支持和大规模数据量为显著特点。数据集包含超过10万条记录,涵盖越南语和英语两种语言,适用于视觉问答和普通问答任务。其独特之处在于,通过高质量的翻译,将英文数据转化为越南语,为越南语自然语言处理研究提供了丰富的资源。此外,数据集的多样性和广泛的应用场景使其成为越南语语言模型训练的重要工具。
使用方法
Vietnamese-ShareGPT4V数据集的使用方法灵活多样,适用于多种自然语言处理任务。研究人员可以通过Hugging Face平台直接访问数据集,并将其加载到模型训练流程中。数据集的结构清晰,包含问题与答案对,便于直接用于视觉问答和普通问答任务的模型微调。此外,数据集的多语言特性使其能够支持跨语言模型的训练与评估,为越南语自然语言处理研究提供了重要的数据支持。
背景与挑战
背景概述
Vietnamese-ShareGPT4V数据集由5CD-AI团队创建,旨在支持越南语的自然语言处理任务,特别是视觉问答和一般问答任务。该数据集包含102,000行数据,涵盖了从英语翻译成越南语的问题和答案。其创建背景源于对越南语语言模型微调的需求,尤其是在多模态任务中的应用。该数据集的推出为越南语的自然语言处理研究提供了重要资源,推动了该领域的技术进步。
当前挑战
Vietnamese-ShareGPT4V数据集在构建过程中面临的主要挑战包括语言翻译的准确性和文化适应性。由于越南语与英语在语法结构和表达方式上存在显著差异,确保翻译后的文本在语义上保持一致性至关重要。此外,视觉问答任务要求模型能够准确理解图像内容并将其与文本信息关联,这对数据集的标注质量提出了更高要求。在应用层面,如何有效利用该数据集提升越南语语言模型在多模态任务中的表现,仍是一个亟待解决的问题。
常用场景
经典使用场景
Vietnamese-ShareGPT4V数据集在自然语言处理领域中被广泛应用于视觉问答和通用问答任务。其包含的10.2万条越南语翻译的问答对,为研究人员提供了丰富的语料资源,特别适用于训练和评估多语言模型在视觉与文本交互任务中的表现。
实际应用
在实际应用中,Vietnamese-ShareGPT4V数据集被用于开发智能客服系统、教育辅助工具以及多语言搜索引擎。其越南语问答数据能够帮助构建更精准的本地化服务,提升用户体验,尤其在东南亚市场具有广泛的应用潜力。
衍生相关工作
基于Vietnamese-ShareGPT4V数据集,研究者们开发了一系列多语言和多模态模型,如越南语视觉问答系统和跨语言文本生成模型。这些工作不仅扩展了数据集的应用范围,还为越南语自然语言处理领域的研究提供了新的方向,推动了相关技术的创新与进步。
以上内容由遇见数据集搜集并总结生成



