TrainingDataPro/ocr-trains-dataset|OCR数据集|图像到文本数据集
收藏OCR Trains - Object Detection Dataset
数据集概述
- 语言: 英语
- 许可证: cc-by-nc-nd-4.0
- 任务类别:
- 图像到文本
- 目标检测
- 标签:
- 代码
- 金融
数据集信息
特征
- id: 数据类型为 int32
- image: 数据类型为 image
- bboxes: 数据类型为 string
数据分割
- 训练集:
- 数据大小: 3152173 字节
- 示例数量: 13
- 下载大小: 3029413 字节
- 数据集大小: 3152173 字节
数据集结构
- images: 包含原始的火车图像
- annotations.xml: 包含边界框的坐标和指示的文本,为原始照片创建
数据格式
每个来自 images
文件夹的图像都伴随着一个 annotations.xml
文件中的XML-注释,指示文本检测的边界框坐标。每个点提供x和y坐标。
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
人民日报语料库 (1998.1)
本库主要提供用于NER任务的处理好的语料,包括基于词级和字级任务的NER数据。数据集包含19484个以行为粒度切分的句子,句子长度最大为659,平均长度为57.55666187641141。实体标注采用BIO格式,区分人名、地名和机构团体。
github 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录