LinaAlhuri/WikipediaArabicPairs
收藏Hugging Face2023-11-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LinaAlhuri/WikipediaArabicPairs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从维基百科抓取的图像及其阿拉伯语标题,旨在提供多样化和代表性的图像与对应阿拉伯语标题的集合,以支持自然语言处理(NLP)、计算机视觉和跨模态应用的研究和开发。数据集包含四个列:source(图像来源)、link(维基百科图像链接)、caption(阿拉伯语标题)和extension(图像文件扩展名)。数据预处理建议包括文本过滤、去重音、词性标注、图像过滤和颜色系统标准化等步骤。
任务类别:
- 图像到文本(image-to-text)
语言:
- 阿拉伯语(Arabic)
数据集简称:WAP
样本量范围:
- 10万 < 样本数 < 100万
---
# 源自维基百科的阿拉伯语文本-图像数据集
## 概述
本数据集仓库包含一个从维基百科爬取图像及其配套标题构建的数据集,聚焦于展现阿拉伯世界的相关内容。本数据集旨在提供兼具多样性与代表性的图像及对应阿拉伯语文本标题,为自然语言处理(Natural Language Processing, NLP)、计算机视觉(Computer Vision)以及跨模态应用领域的研发工作提供支撑。
## 数据集结构
本数据集共包含四列:
1. **来源(source)**:标注该图像-文本对的原始出处。
2. **链接(link)**:指向维基百科对应图像的网页链接。
3. **标题(caption)**:对应每张图像的阿拉伯语文本标题。
4. **文件扩展名(extension)**:标注每张图像的文件扩展名。
## 推荐预处理流程
建议采用以下经过验证的过滤与预处理技术:
1. **文本过滤**:
- 移除标题包含少于3个Token的图像。
- 保留标题中的数字,以提升数据集的复杂度。
- 保留拉丁词汇,以减少对外来实体与科学术语的信息损失。
2. **阿拉伯语变音符号移除**:
- 使用Python的Araby库对标题中的阿拉伯语变音符号进行移除处理。
3. **词性标注器应用**:
- 使用CAMeL-Lab开源的bert-base-arabic-camelbert-msa-pos-msa标注器,移除以专有名词为主的标题,以生成更高质量的标题文本。
- 目标是优先让模型学习通用概念而非细粒度细节。
5. **图像过滤**:
- 移除像素数少于100的图像,以向模型提供细节丰富的输入样本。
- 最终数据集仅保留JPEG格式的图像,因为其他格式可能存在信息损失。
6. **非JPEG图像处理**:
- 移除其他扩展名的图像,因为这类图像通常包含地图、标识或信息含量较低的内容。
7. **色彩系统标准化**:
- 使用Python的OpenCV库将图像转换为RGB色彩空间,以确保统一的色彩格式。
**备注**:由于缺乏能够将特定概念替换为通用表述的阿拉伯语图形工具,本数据集未对包含个人隐私的图像进行保护处理。这一局限为未来图像隐私保护领域的研究与改进提供了方向。
## 使用指南
欢迎研究人员与开发者将该预处理后的数据集用于图像标题生成、跨模态学习以及其他自然语言处理与计算机视觉相关任务。请务必遵守伦理准则,并确保本数据集的使用符合维基百科的服务条款与许可协议。
提供机构:
LinaAlhuri
原始信息汇总
Arabic Text-Image Dataset from Wikipedia 概述
数据集详情
基本信息
- 任务类别:image-to-text
- 语言:阿拉伯语(ar)
- 数据集大小:100K<n<1M
数据集结构
- 列信息:
- source:图像文本对的来源。
- link:指向维基百科图像的链接。
- caption:与每个图像对应的阿拉伯语标题。
- extension:每个图像的文件扩展名。
推荐的数据预处理步骤
- 文本过滤:
- 丢弃标题少于三个词的图像。
- 保留标题中的数字以增加数据集复杂性。
- 保留拉丁词以减少对外国实体或科学术语的信息损失。
- 去除音符:
- 使用Araby库去除标题中的音符。
- 词性标注器使用:
- 使用CAMeL-Lab/bert-base-arabic-camelbert-msa-pos-msa标注器排除主要是专有名词的标题,以生成更高质量的标题。
- 图像过滤:
- 移除像素少于一百的图像,以提供细节丰富的图像。
- 仅包含JPEG格式的图像,以减少其他格式可能的信息损失。
- 处理非JPEG图像:
- 排除其他扩展名的图像,因为它们通常包含地图、标志或信息内容不丰富的图像。
- 颜色系统标准化:
- 使用Python OpenCV将图像转换为RGB,以确保标准化的颜色空间。
使用建议
- 鼓励研究人员和开发者使用此预处理数据集进行图像标题生成、跨模态学习和其他NLP和计算机视觉应用。
- 使用时应遵守伦理标准,并确保数据集的使用符合维基百科的服务条款和许可。



