openai/summarize_from_feedback|自然语言处理数据集|机器学习数据集
收藏数据集概述
数据集名称
- pretty_name: Summarize from Feedback
数据集描述
- 来源与目的: 该数据集源自论文《Learning to Summarize from Human Feedback》,用于训练奖励模型,进而训练出符合人类偏好的摘要模型。
- 数据集组成:
- comparisons: 人类标注者从两个摘要中选择最佳的一个。
- axis: 人类标注者对摘要的质量进行Likert量表评分。
- 数据集分割:
comparisons部分包含训练集和验证集。axis部分包含测试集和验证集。
- 数据来源: 训练奖励模型的摘要数据来自TL;DR数据集,额外的验证和测试数据来自TL;DR数据集、CNN文章和Daily Mail文章。
引用信息
- 论文: Learning to Summarize from Human Feedback
- 作者: Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano
- 发表年份: 2020
- 会议: NeurIPS

stanford_cars
该数据集是一个包含多个汽车品牌和型号的图片数据集,每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务,特别是汽车品牌和型号的识别。
huggingface 收录
Granary
Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。
arXiv 收录
UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录
中国区域250米植被覆盖度数据集(2000-2024)
该数据集是中国区域2000至2024年月度植被覆盖度产品,空间分辨率250米,合成方式采用月最大值合成,每年12期,共299期。本产品采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中,NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集(2000-2024)产品。通过时空变化趋势分析检验法分析,该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。
国家青藏高原科学数据中心 收录
DUO (Detecting Underwater Objects)
检测水下物体 (DUO) 包含一组具有更合理注释的不同水下图像。相应的基准测试为学术研究和工业应用提供了 SOTA(在 MMDtection 框架下)的效率和准确性指标,其中 JETSON AGX XAVIER 用于评估检测器速度以模拟机器人嵌入式环境。
OpenDataLab 收录
