openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集
收藏数据集卡片 for WebGPT Comparisons
数据集描述
该数据集包含WebGPT项目中所有被标记为适合奖励建模的比较。总共有19,578个比较。每个示例包含一对针对某个问题的模型答案及其相关元数据。每个答案都有一个来自人类的偏好分数,用于确定两个答案中哪个更好。
每个示例包含以下字段:
question
:问题的文本,以及问题来源的数据集名称和唯一ID。quotes_0
:模型在浏览以生成answer_0
时找到的摘录,以及摘录所在页面的标题(由页面的HTML标题和域名构成)。answer_0
:模型使用quotes_0
编写的最终答案。tokens_0
:在生成answer_0
的最后一步中会提供给模型的前缀,以及模型或人类给出的完成。前缀由问题和引用组成,并进行了一些截断,完成部分就是答案。两者都使用GPT-2分词器进行分词。前缀和完成的连接是用于奖励建模的输入。score_0
:answer_0
相对于answer_1
的偏好强度,取值范围为-1到1。它与score_1
之和为0,当且仅当其分数为正时,答案被偏好。对于奖励建模,我们将分数为0视为软50%标签,所有其他分数视为硬标签(仅使用其符号)。quotes_1
:与quotes_0
对应。answer_1
:与answer_0
对应。tokens_1
:与tokens_0
对应。score_1
:与score_0
对应。
这些信息来自WebGPT论文的附录K。

中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
Global Wind Atlas (GWA)
Global Wind Atlas (GWA) 是一个全球风能资源数据集,提供了高分辨率的风速和风能密度数据。该数据集覆盖全球范围,包括陆地和海洋,旨在支持风能项目的规划和评估。数据集提供了多种风速和风能密度指标,以及风向和风能分布图。
globalwindatlas.info 收录
心脑血管体检数据集
心脑血管体检数据集是基于多年心脑血管疾病研究和体检数据积累,开发的一项数据集。该数据集包括血液黏度、胆固醇结晶、甘油三脂、血管阻力、血管弹性、心肌血液需量、心肌血液灌注量、心脏每分钟耗氧量、每搏心搏出量、左心室喷血阻抗、左心室有效泵力、冠状动脉弹性、冠状动脉灌注压、脑血管弹性、脑组织供血、大脑微循环、脑动脉硬化等体检数据,可用于心脑血管疾病的风险评估、辅助诊断、预后判断和治疗决策等。
陕西省数据知识产权登记服务平台 收录
yolo-datasets
深度学习目标检测数据集/分割数据集最全最完整的数据集集合,包含电力电气领域、航空影像输电线路与输电塔分割、电力遥感风力发电机、安全带和安全绳检测、变压器漏油故障诊断、高压输电线故障检测、光伏热红外缺陷、风电光伏功率数据、变电站火灾、输电线路语义分割、配网缺陷检测、变电站设备目标检测、太阳能光伏电池板缺陷、pcb电路板检测、绝缘体检测、输电线路防震锤缺陷、电线冰雪覆盖、电力工程电网施工现场安全作业、螺丝识别检测、变电站电力设备的可见光和红外图像、无人机航拍输电线路悬垂线夹、电线线路表面损害、氧化锌避雷器破损识别、热斑光伏发电系统红外热图像等多个领域的数据集。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录