Muharaf 手写阿拉伯文数据集|手写识别数据集|阿拉伯文识别数据集

超神经2024-11-14 更新2024-12-14 收录

手写识别

阿拉伯文识别

下载链接：

https://hyper.ai/cn/datasets/35487

下载链接

链接失效反馈

资源简介：

Muharaf 数据集是一个专注于手写阿拉伯文识别的机器学习数据集，由 Mehreen Saeed 等人于 2024 年创建，相关论文成果为「Muharaf: Manuscripts of Handwritten Arabic Dataset for Cursive Text Recognition」，已被 NeurIPS 24 接受。这个数据集包含了超过 1.6k 张历史手写页面图像，这些图像由档案阿拉伯语专家转录。每张文档图像都伴随着其文本行的空间多边形坐标以及基本页面元素的信息。 Muharaf 数据集的构建旨在推进手写文本识别 (HTR) 领域的技术进步，不仅针对阿拉伯文手稿，也适用于连体文本的识别。

创建时间：

2024-11-04

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

BDD100K

数据集推动了视觉的进步，但现有的驾驶数据集在视觉内容和支持任务方面缺乏研究，以研究自动驾驶的多任务学习。研究人员通常只能在一个数据集上研究一小组问题，而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了最大的驾驶视频数据集 BDD100K，包含 10 万个视频和 10 个任务，以评估图像识别算法在自动驾驶方面的令人兴奋的进展。该数据集具有地理、环境和天气的多样性，这对于训练不太可能对新条件感到惊讶的模型很有用。基于这个多样化的数据集，我们为异构多任务学习建立了一个基准，并研究了如何一起解决这些任务。我们的实验表明，现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的学习打开了大门。更多详细信息请参见数据集主页。

OpenDataLab 收录