five

mnoukhov/openai_summarize_generated_10k

收藏
hugging_face2023-12-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mnoukhov/openai_summarize_generated_10k
下载链接
链接失效反馈
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* dataset_info: features: - name: prompt dtype: string - name: chosen dtype: string - name: rejected dtype: string splits: - name: train num_bytes: 18033740 num_examples: 10000 download_size: 10969719 dataset_size: 18033740 --- # Dataset Card for "openai_summarize_generated_10k" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
mnoukhov
原始信息汇总

数据集概述

数据集名称

  • openai_summarize_generated_10k

配置信息

  • 默认配置 (default)
    • 数据文件路径: data/train-*

数据特征

  • 特征名称: prompt
    • 数据类型: string
  • 特征名称: chosen
    • 数据类型: string
  • 特征名称: rejected
    • 数据类型: string

数据分割

  • 分割名称: train
    • 字节数: 18033740
    • 样本数量: 10000

数据集大小

  • 下载大小: 10969719
  • 数据集大小: 18033740
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CODrone

CODrone 是一个为无人机设计的全面定向目标检测数据集,它准确反映了真实世界条件。该数据集包含来自多个城市在不同光照条件下的广泛标注图像,增强了基准的逼真度。CODrone 包含超过 10,000 张高分辨率图像,捕获自五个城市的真实无人机飞行,涵盖了各种城市和工业环境,包括港口和码头。为了提高鲁棒性和泛化能力,它包括在正常光线、低光和夜间条件下相同场景的图像。我们采用了三种飞行高度和两种常用的相机角度,从而产生了六个不同的视角配置。所有图像都针对 12 个常见对象类别进行了定向边界框标注,总计超过 590,000 个标记实例。总体而言,这项工作构建了一个综合数据集和基准,用于城市无人机场景中的定向目标检测,旨在满足该领域的研究和实践应用需求。

arXiv 收录

中国气象站历史气象数据集

该数据集包含中国1000多个气象站从1942年到2024年9月的历史气象数据,数据按年份组织在Database_CN文件夹中,包含28个气象参数,如温度、湿度、气压、风速、能见度等。数据文件以CSV格式存储,命名格式为[StationID]_[StationName]_[Country]_([Longitude],[Latitude]).csv,同时提供station_info.csv文件包含站点元数据信息。

github 收录

CityScapes

Cityscapes是一个大型数据库,专注于对城市街道场景的语义理解。它为分为8个类别 (平面,人类,车辆,构造,对象,自然,天空和虚空) 的30个类提供语义,实例和密集的像素注释。数据集由大约5000个精细注释图像和20000个粗糙注释图像组成。在几个月,白天和良好的天气条件下,在50个城市中捕获了数据。它最初被记录为视频,因此手动选择帧以具有以下功能: 大量动态对象,不同的场景布局和不同的背景。

OpenDataLab 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录