StainDoc|文档污渍去除数据集|文档数字化数据集
收藏StainRestorer 数据集概述
数据集介绍
- 名称: StainDoc
- 描述: StainDoc 是首个大规模高分辨率数据集,专门用于文档污渍去除任务,包含真实世界的数据和对应的地面真值数据。
- 来源: 由 Kaggle 提供。
数据集类型
- 类型: 文档污渍去除
- 子集:
- StainDoc_mark
- StainDoc_seal
 
数据集生成
- 生成方法: 基于 DocDiff 的处理流程生成。
使用方法
训练
- 
下载数据集。 
- 
在 config.yml文件的 TRAINING 部分指定 TRAIN_DIR、VAL_DIR 和 SAVE_DIR。
- 
单 GPU 训练: bash python train.py 
- 
多 GPU 训练: bash accelerate config accelerate launch train.py - 如遇 accelerate使用问题,请参考 Accelerate。
 
- 如遇 
推理
- 在 config.yml文件的 TESTING 部分指定 TRAIN_DIR、VAL_DIR 和 SAVE_DIR。
- 运行推理脚本: bash python infer.py
引用
- 暂无引用信息。

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
ner_training_stanza
该数据集包含文本数据及其相应的命名实体识别信息。文本被分词,并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集,适用于进一步的自然语言处理任务。
huggingface 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中文突发事件语料库
中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。
github 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
