ANIMAL (ANIMAL-10N)|图像识别数据集|机器学习数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

图像识别

机器学习

下载链接：

https://opendatalab.org.cn/OpenDataLab/ANIMAL

下载链接

链接失效反馈

资源简介：

ANIMAL-10N 数据集包含 5 对令人困惑的动物，共有 55,000 张图像。 5对分别为：（猫，猞猁），（美洲虎，猎豹），（狼，土狼），（黑猩猩，猩猩），（仓鼠，豚鼠）。这些图像是从包括 Bing 和 Google 在内的几个在线搜索引擎中抓取的，使用预定义的标签作为搜索关键字。然后由 15 名招募的参与者（10 名本科生和 5 名研究生）对图像进行分类；每个参与者总共注释了 6,000 幅图像，每班 600 幅图像。去除不相关图像后，训练数据集包含 50,000 张图像，测试数据集包含 5,000 张图像。数据集的噪声率（误标率）约为 8%。

提供机构：

OpenDataLab

创建时间：

2022-06-07

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM（Prognostics and Health Management）开源数据集，涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景，包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法，数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

腾讯词向量（Tencent AI Lab Embedding Corpus for Chinese Words and Phrases）

这些语料库的最新版本提供了100维度和200维度的向量表示形式，也就是嵌入，适用于中文和英文。具体来说，有超过1200万个中文单词和短语以及650万个英语单词和短语，它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义，可以广泛应用于许多下游任务 (例如，命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录