five

davanstrien/aya_dpo2

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/aya_dpo2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:default和text_generation,每个配置都有特定的特征和训练集。数据集的特征包括instruction、targets、language、language_code、annotation_type、user_id、zephyr-response、generation_model和generation。数据集的结构和加载方式通过代码示例进行了说明。此外,数据集是通过distilabel工具生成的,并提供了相关的命令行操作。

该数据集包含两个配置:default和text_generation,每个配置都有特定的特征和训练集。数据集的特征包括instruction、targets、language、language_code、annotation_type、user_id、zephyr-response、generation_model和generation。数据集的结构和加载方式通过代码示例进行了说明。此外,数据集是通过distilabel工具生成的,并提供了相关的命令行操作。
提供机构:
davanstrien
原始信息汇总

数据集概述

基本信息

  • 数据集大小: 小于1K个样本
  • 配置名称: 默认 (default) 和 text_generation

特征信息

  • 默认配置 (default):

    • 特征:
      • instruction: 字符串类型
      • targets: 字符串类型
      • language: 字符串类型
      • language_code: 字符串类型
      • annotation_type: 字符串类型
      • user_id: 字符串类型
      • zephyr-response: 字符串类型
      • generation_model: 字符串类型
      • generation: 字符串类型
    • 数据分割:
      • 训练集: 60个样本,大小为114839字节
    • 下载大小: 80401字节
    • 数据集总大小: 114839字节
  • text_generation 配置:

    • 特征:
      • instruction: 字符串类型
      • targets: 字符串类型
      • language: 字符串类型
      • language_code: 字符串类型
      • annotation_type: 字符串类型
      • user_id: 字符串类型
      • zephyr-response: 字符串类型
      • generation_model: 字符串类型
      • generation: 字符串类型
    • 数据分割:
      • 训练集: 100个样本,大小为192711字节
    • 下载大小: 128979字节
    • 数据集总大小: 192711字节

数据加载

  • 默认配置加载: python from datasets import load_dataset ds = load_dataset("davanstrien/aya_dpo2")

标签

  • 合成数据 (synthetic)
  • 自动标注 (distilabel)
  • RLAIF (rlaif)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作