ICDAR 2015|文档分析数据集|场景文本检测数据集
收藏
- ICDAR 2015数据集首次发布,作为第十三届国际文档分析与识别会议(ICDAR 2015)的一部分,该数据集主要用于文本检测和识别任务,包含多种语言和复杂背景的文本图像。
- ICDAR 2015数据集在多个学术论文中被引用和应用,成为文本识别领域的重要基准数据集之一。
- 随着深度学习技术的发展,ICDAR 2015数据集被广泛用于训练和评估各种先进的文本检测和识别模型,推动了相关技术的进步。
- ICDAR 2015数据集的应用范围进一步扩大,不仅在学术研究中占据重要地位,也开始在工业界得到应用,特别是在自动化文档处理和智能识别系统中。
- ICDAR 2015数据集的相关研究成果在多个国际顶级会议上发表,进一步巩固了其在文本识别领域的基础数据集地位。
- 随着新数据集的涌现,ICDAR 2015数据集的研究热度有所下降,但仍被视为经典数据集,继续在教育和研究中发挥作用。
- 1ICDAR 2015 Robust Reading CompetitionIEEE · 2015年
- 2Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition FrameworkUniversity of Wuerzburg · 2017年
- 3EAST: An Efficient and Accurate Scene Text DetectorBaidu Inc. · 2017年
- 4TextBoxes: A Fast Text Detector with a Single Deep Neural NetworkNanjing University · 2017年
- 5FOTS: Fast Oriented Text Spotting with a Unified NetworkBaidu Inc. · 2018年
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录