IAM dataset|手写识别数据集|机器学习数据集
收藏数据集概述
数据集名称
IAM dataset
数据集来源
数据集结构
- Model1 - word_model.png: 训练于数据集的WORD单元。
- Model2 - line_model.png: 训练于数据集的LINE单元。
数据集分割
数据集分割信息参考自:Open Speech and Language Resources
测试结果
在IAM数据集上的测试结果如下:
模型 | 测试单元 | 字符错误率(CER%) | 词错误率(WER%) |
---|---|---|---|
WORD | WORD | 17.20 | 37.78 |
训练与评估
- 训练: 使用Google Colab进行。
- 预测: 通过运行
python3 Prediction.py
进行。 - 评估: 分别通过运行
python3 EvaluationWord.py
和python3 EvaluationLine.py
进行。

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录