johnlockejrr/KHATT_v1.0_dataset|手写识别数据集|阿拉伯语处理数据集
收藏KHATT_v1.0 - line level
数据集概述
KHATT (KFUPM Handwritten Arabic TexT) 数据库是一个由1000名不同作者书写的无约束阿拉伯手写文本数据库。该数据库由KFUPM的研究团队开发,团队由Sabri Mahmoud教授领导,并与TU-Dortmund的Fink教授和TU-Braunschweig的Märgner博士合作完成。
数据库包括2000张相似文本段落图像和2000张独特文本段落图像及其提取的文本行图像。图像附有手动验证的地面实况和地面实况的拉丁表示。该数据库可用于各种与手写识别相关的研究,如文本识别和作者识别。
数据库概览
- 由1000名不同作者书写的表格。
- 以不同分辨率(200、300和600 DPI)扫描。
- 作者来自不同国家、性别、年龄组、书写习惯和教育水平。
- 自然书写,无限制的书写风格。
- 2000张独特段落图像及其分段行图像(源文本来自不同主题,如艺术、教育、健康、自然、技术)。
- 2000张包含相似文本的段落图像,每张覆盖所有阿拉伯字符和形状及其分段行图像。
- 作者自由书写的段落,主题不限。
- 段落和行图像附有手动验证的地面实况。
- 数据库分为三个不相交的集合:训练集(70%)、验证集(15%)和测试集(15%)。
- 促进作者识别、行分割、二值化和噪声去除技术以及手写文本识别等领域的研究。
数据集结构
数据实例
json { "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=4300x128 at 0x1A800E8E190>, "text": "رفاظ قيار يؤل نب فوؤر هبحصب ماغرض رفظم حون بهذ" }
数据字段
image
: 包含图像的PIL.Image.Image对象。访问图像列时,图像文件会自动解码。解码大量图像文件可能需要大量时间,因此建议先查询样本索引再访问“image”列。text
: 图像的标签转录。由于PyLaia库的限制,文本从RTL翻转为LTR。
数据集信息
- 特征:
image
: 图像数据类型text
: 字符串数据类型
- 分割:
train
: 4672个样本validation
: 963个样本test
: 1038个样本
- 数据集大小: 220M
- 标签:
- atr
- htr
- ocr
- historical
- handwritten
- arabic

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
城市积水点
该数据是北京市水务局提供的城市积水点信息,包括日期、积水位置、水位(米)等属性字段。
北京市公共数据开放平台 收录
Dynamic World dataset
Dynamic World数据集是由Google和世界资源研究所合作推出的近实时高分辨率土地利用/土地覆盖(LULC)数据集。该数据集通过先进的分割技术处理Sentinel-2卫星图像,提供了10个波段,其中9个波段包含像素被特定类别完全覆盖的估计概率,最后一个波段包含最高估计概率的波段索引。数据集的分辨率为10米,确保了高精度的结果。数据集的创建过程包括从Google Earth Engine中提取图像,并通过Fishnet生成器创建网格进行分析。该数据集主要应用于城市化预测、环境监测和可持续发展的决策支持。
arXiv 收录
Amazon Deforestation Monitoring
该数据集主要用于监测亚马逊雨林的森林砍伐情况,包含卫星图像和地理信息数据,用于分析和跟踪森林覆盖变化。
www.globalforestwatch.org 收录
SatwikKambham/suim
SUIM数据集是一个专为水下图像语义分割设计的数据集,包含1525张标注的训练/验证图像和110张测试图像。图像中识别的对象类别包括水体背景、人类潜水员、水生植物、沉船遗迹、机器人、珊瑚礁和无脊椎动物、鱼类和脊椎动物、海底和岩石,每个类别都有特定的符号和灰度值。
hugging_face 收录