Oxford-IIIT Pet|图像识别数据集|计算机视觉数据集
收藏
- Oxford-IIIT Pet数据集首次发表,由牛津大学、印度理工学院和微软研究院共同创建,旨在为计算机视觉研究提供高质量的宠物图像数据。
- 该数据集首次应用于图像分类和对象检测任务,展示了其在计算机视觉领域的潜力。
- Oxford-IIIT Pet数据集被广泛用于深度学习模型的训练和评估,特别是在卷积神经网络(CNN)的研究中。
- 数据集的扩展版本发布,增加了更多的宠物种类和图像,进一步提升了其在多样性任务中的应用价值。
- Oxford-IIIT Pet数据集成为多个国际计算机视觉竞赛的标准数据集,推动了相关领域的技术进步。
- 数据集的标注和图像质量得到进一步优化,支持了更高精度的图像识别和分割任务。
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录