mnoukhov/openai_summarize_generated_10k
收藏数据集概述
数据集名称
- openai_summarize_generated_10k
配置信息
- 默认配置 (
default)- 数据文件路径:
data/train-*
- 数据文件路径:
数据特征
- 特征名称:
prompt- 数据类型:
string
- 数据类型:
- 特征名称:
chosen- 数据类型:
string
- 数据类型:
- 特征名称:
rejected- 数据类型:
string
- 数据类型:
数据分割
- 分割名称:
train- 字节数: 18033740
- 样本数量: 10000
数据集大小
- 下载大小: 10969719
- 数据集大小: 18033740
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
CODrone
CODrone 是一个为无人机设计的全面定向目标检测数据集,它准确反映了真实世界条件。该数据集包含来自多个城市在不同光照条件下的广泛标注图像,增强了基准的逼真度。CODrone 包含超过 10,000 张高分辨率图像,捕获自五个城市的真实无人机飞行,涵盖了各种城市和工业环境,包括港口和码头。为了提高鲁棒性和泛化能力,它包括在正常光线、低光和夜间条件下相同场景的图像。我们采用了三种飞行高度和两种常用的相机角度,从而产生了六个不同的视角配置。所有图像都针对 12 个常见对象类别进行了定向边界框标注,总计超过 590,000 个标记实例。总体而言,这项工作构建了一个综合数据集和基准,用于城市无人机场景中的定向目标检测,旨在满足该领域的研究和实践应用需求。
arXiv 收录
中国气象站历史气象数据集
该数据集包含中国1000多个气象站从1942年到2024年9月的历史气象数据,数据按年份组织在Database_CN文件夹中,包含28个气象参数,如温度、湿度、气压、风速、能见度等。数据文件以CSV格式存储,命名格式为[StationID]_[StationName]_[Country]_([Longitude],[Latitude]).csv,同时提供station_info.csv文件包含站点元数据信息。
github 收录
CityScapes
Cityscapes是一个大型数据库,专注于对城市街道场景的语义理解。它为分为8个类别 (平面,人类,车辆,构造,对象,自然,天空和虚空) 的30个类提供语义,实例和密集的像素注释。数据集由大约5000个精细注释图像和20000个粗糙注释图像组成。在几个月,白天和良好的天气条件下,在50个城市中捕获了数据。它最初被记录为视频,因此手动选择帧以具有以下功能: 大量动态对象,不同的场景布局和不同的背景。
OpenDataLab 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
