five

tasksource/oasst1_pairwise_rlhf_reward|奖励建模数据集|多语言数据数据集

收藏
hugging_face2023-07-04 更新2024-03-04 收录
奖励建模
多语言数据
下载链接:
https://hf-mirror.com/datasets/tasksource/oasst1_pairwise_rlhf_reward
下载链接
链接失效反馈
资源简介:
该数据集是基于OASST1数据集预处理得到的,专门用于奖励建模。数据集中包含了多种语言的对话数据,每个对话包括一个提示(prompt)、一个被选择的回复(chosen)和一个被拒绝的回复(rejected)。数据集分为训练集和验证集,分别包含17966和952个样本。数据集的下载大小为22371458字节,总大小为42888880字节。

该数据集是基于OASST1数据集预处理得到的,专门用于奖励建模。数据集中包含了多种语言的对话数据,每个对话包括一个提示(prompt)、一个被选择的回复(chosen)和一个被拒绝的回复(rejected)。数据集分为训练集和验证集,分别包含17966和952个样本。数据集的下载大小为22371458字节,总大小为42888880字节。
提供机构:
tasksource
原始信息汇总

数据集概述

数据集名称

  • 名称: oasst1_pairwise_rlhf_reward

数据集特征

  • 特征列表:
    • lang: 数据类型为字符串
    • parent_id: 数据类型为字符串
    • prompt: 数据类型为字符串
    • chosen: 数据类型为字符串
    • rejected: 数据类型为字符串

数据集分割

  • 训练集:
    • 样本数量: 17966
    • 数据大小: 40736437字节
  • 验证集:
    • 样本数量: 952
    • 数据大小: 2152443字节

数据集大小

  • 下载大小: 22371458字节
  • 总数据集大小: 42888880字节

支持的语言

  • en, es, ru, de, pl, th, vi, sv, bn, da, he, it, fa, sk, id, nb, el, nl, hu, eu, zh, eo, ja, ca, cs, bg, fi, pt, tr, ro, ar, uk, gl, fr, ko

数据集处理

  • 数据集经过预处理,用于奖励建模。处理步骤包括数据加载、合并、索引设置、历史记录构建、数据筛选和特征提取,最终形成包含特定特征的数据集,并上传至数据集仓库。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录