Seeker38/image_text_wikipedia_vi
收藏Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Seeker38/image_text_wikipedia_vi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含近380,000对从越南语维基百科文章中提取的图像和对应文本摘要。数据集旨在促进多模态学习领域的研究和开发,特别是涉及理解和处理文本和视觉信息的任务。每一条数据包括一张图像和从越南语维基百科文章介绍部分提取的摘要文本。图像内容多样,涵盖物体、场景、地标和人物等,提供了丰富多样的视觉信息。数据集的收集方法包括从XML维基媒体转储文件中提取和过滤摘要文本,以及从越南语维基百科文章中抓取摘要。数据集可用于多模态学习、图像字幕生成、视觉问答和跨模态检索等任务。数据预处理包括图像格式标准化和文本摘要的基本清理。潜在挑战包括语言复杂性、歧义性、图像质量差异和文本长度不平衡。
该数据集包含近380,000对从越南语维基百科文章中提取的图像和对应文本摘要。数据集旨在促进多模态学习领域的研究和开发,特别是涉及理解和处理文本和视觉信息的任务。每一条数据包括一张图像和从越南语维基百科文章介绍部分提取的摘要文本。图像内容多样,涵盖物体、场景、地标和人物等,提供了丰富多样的视觉信息。数据集的收集方法包括从XML维基媒体转储文件中提取和过滤摘要文本,以及从越南语维基百科文章中抓取摘要。数据集可用于多模态学习、图像字幕生成、视觉问答和跨模态检索等任务。数据预处理包括图像格式标准化和文本摘要的基本清理。潜在挑战包括语言复杂性、歧义性、图像质量差异和文本长度不平衡。
提供机构:
Seeker38
原始信息汇总
数据集概述
名称: Image-Text Wikipedia Abstracts (Vietnamese version)
组成: 包含374,748对图像及其对应的文本摘要,这些摘要从越南语维基百科文章中提取。
目的: 用于多模态学习研究,特别是涉及文本和视觉信息的理解和处理任务。
数据集构成
- 图像: 内容多样,包括物体、场景、地标和人物。
- 文本摘要: 从越南语维基百科文章的介绍部分提取,作为文章的简洁总结。
数据收集
- 方法: 通过直接从XML维基媒体转储文件提取和过滤文本摘要,以及通过网络爬虫从越南语维基百科文章中抓取介绍段落。
数据预处理
- 图像格式: 以JPG格式提供。
- 文本预处理: 包括去除不必要的括号、未知字符和评论标签,以及清理空行。
潜在挑战
- 语言复杂性: 文本可能包含复杂词汇和多样话题。
- 模糊性: 部分摘要可能包含模糊或比喻性语言。
- 图像质量: 图像质量和分辨率的变化可能影响模型性能。
- 文本长度不平衡: 文本长度差异大,最长8903字,最短1字,可能影响模型训练。
数据集使用
- 多模态学习: 训练模型理解和生成图像和文本描述。
- 图像标注: 生成图像的描述性标注。
- 视觉问答: 开发能够回答视觉内容相关问题的模型。
- 跨模态检索: 匹配图像与其对应的文本摘要。



