five

RLHFlow/Capybara-distibalel-Filter-standard|文本过滤数据集|偏好分析数据集

收藏
hugging_face2024-04-28 更新2024-06-12 收录
文本过滤
偏好分析
下载链接:
https://hf-mirror.com/datasets/RLHFlow/Capybara-distibalel-Filter-standard
下载链接
链接失效反馈
资源简介:
该数据集包含四个主要特征:chosen、rejected、rejected_score和chosen_score。其中,chosen和rejected是包含content和role两个字段的列表。数据集只有一个训练集分割,包含14811个样本,总大小为145612511字节。数据集来源于argilla/Capybara-Preferences-Filtered,并已处理为标准格式。

该数据集包含四个主要特征:chosen、rejected、rejected_score和chosen_score。其中,chosen和rejected是包含content和role两个字段的列表。数据集只有一个训练集分割,包含14811个样本,总大小为145612511字节。数据集来源于argilla/Capybara-Preferences-Filtered,并已处理为标准格式。
提供机构:
RLHFlow
原始信息汇总

数据集概述

数据集特征

  • chosen
    • content: 数据类型为字符串
    • role: 数据类型为字符串
  • rejected
    • content: 数据类型为字符串
    • role: 数据类型为字符串
  • rejected_score: 数据类型为整数(int64)
  • chosen_score: 数据类型为整数(int64)

数据集划分

  • train
    • num_bytes: 145612511字节
    • num_examples: 14811个示例

数据集大小

  • download_size: 75712942字节
  • dataset_size: 145612511字节

配置

  • config_name: default
    • data_files
      • split: train
        • path: data/train-*
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

ANC

美国国家语料库(American National Corpus,简称ANC)是一个大规模的电子美国英语语料库,包含多种类型文本及口语数据转录,旨在全面反映美国英语的多样性。其开放部分OANC约有1500万字,涵盖多种文体,且进行了自动标注。

anc.org 收录

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。

github 收录

WHO Drug

WHO Drug数据集包含了世界卫生组织(WHO)发布的药物信息,包括药物的通用名称、国际非专利名称(INN)、化学名称、分子式、分子量、CAS登记号等详细信息。该数据集旨在为全球的药物研究和监管提供标准化的药物信息。

www.who.int 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录