网络文化经营许可证|网吧经营数据集|许可证管理数据集
收藏Stanford Cars
Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。
OpenDataLab 收录
SMSSpamCollection
该数据集包含数千条标记为spam或ham(非垃圾邮件)的短信。它反映了日常通信的典型情况,并包含常见的垃圾邮件词汇,为评估文本分类模型提供了现实基础。
github 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
航空发动机叶片异常检测数据集 (AeBAD)
航空发动机叶片异常检测数据集(AeBAD)由西安交通大学机械工程学院创建,包含两个子数据集:单叶片数据集(AeBAD-S)和叶片视频异常检测数据集(AeBAD-V)。AeBAD-S包含不同尺度的单叶片图像,样本未对齐,存在训练集与测试集间的域转移问题,主要由光照和视角变化引起。AeBAD-V包含安装在航空发动机上的叶片视频,用于检测叶片在旋转过程中的异常。该数据集旨在解决实际工业应用中叶片异常检测的问题,强调同一数据类别内的域多样性。
arXiv 收录
