habit_horses_still_image_detector_training_dataset_10978|图像识别数据集|物体检测数据集
收藏数据集概述
数据集名称
habit_horses_still_image_detector_training_dataset_10978
开发者
Dr Steve North - steve@stevenorth.com - 2017
数据集目的
用于HABIT (Horse Automated Behaviour Identification Tool) 项目,提供训练图像以支持计算机视觉和机器学习应用。
数据集内容
- 正样本图像:6183张,包含多种马的品种、年龄、性别、视角、尺度及遮挡情况。图像格式为灰度BMP,分辨率为100x100像素,存储于
habit_horses_still_image_detector_training_dataset_10978pos awdata
目录下。 - 负样本图像:4795张,不包含马的图像。图像格式为灰度JPG,分辨率为100x100像素,存储于
habit_horses_still_image_detector_training_dataset_10978 eg
目录下。
图像来源
- 正样本:来自开发者自己的图像、Google Image搜索、ImageNet及Weizmann Horse Databases。
- 负样本:通过Python脚本从ImageNet下载,并自动处理为所需格式和大小。
附加文件
bg.txt
:包含负样本图像的相对路径列表。posinfo.txt
:为每张正样本图像提供ROI(Region of Interest)/ 边界框的坐标信息,用于训练Haar Cascade检测器。
技术细节
- 正样本图像因工具
objectmarker.exe
仅支持BMP格式,故采用BMP格式;负样本图像则保持JPG格式。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
TEDS
TEDS(Tencent Chinese Corpus)是由腾讯公司发布的中文文本数据集,主要用于自然语言处理和文本分类任务。该数据集包含了大量的中文文本数据,涵盖了新闻、社交媒体、论坛等多种来源,适用于训练和评估中文语言模型和文本分类模型。
ai.tencent.com 收录