davanstrien/aya_dpo2
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/aya_dpo2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置:default和text_generation,每个配置都有特定的特征和训练集。数据集的特征包括instruction、targets、language、language_code、annotation_type、user_id、zephyr-response、generation_model和generation。数据集的结构和加载方式通过代码示例进行了说明。此外,数据集是通过distilabel工具生成的,并提供了相关的命令行操作。
该数据集包含两个配置:default和text_generation,每个配置都有特定的特征和训练集。数据集的特征包括instruction、targets、language、language_code、annotation_type、user_id、zephyr-response、generation_model和generation。数据集的结构和加载方式通过代码示例进行了说明。此外,数据集是通过distilabel工具生成的,并提供了相关的命令行操作。
提供机构:
davanstrien
原始信息汇总
数据集概述
基本信息
- 数据集大小: 小于1K个样本
- 配置名称: 默认 (
default) 和text_generation
特征信息
-
默认配置 (
default):- 特征:
- instruction: 字符串类型
- targets: 字符串类型
- language: 字符串类型
- language_code: 字符串类型
- annotation_type: 字符串类型
- user_id: 字符串类型
- zephyr-response: 字符串类型
- generation_model: 字符串类型
- generation: 字符串类型
- 数据分割:
- 训练集: 60个样本,大小为114839字节
- 下载大小: 80401字节
- 数据集总大小: 114839字节
- 特征:
-
text_generation 配置:
- 特征:
- instruction: 字符串类型
- targets: 字符串类型
- language: 字符串类型
- language_code: 字符串类型
- annotation_type: 字符串类型
- user_id: 字符串类型
- zephyr-response: 字符串类型
- generation_model: 字符串类型
- generation: 字符串类型
- 数据分割:
- 训练集: 100个样本,大小为192711字节
- 下载大小: 128979字节
- 数据集总大小: 192711字节
- 特征:
数据加载
- 默认配置加载: python from datasets import load_dataset ds = load_dataset("davanstrien/aya_dpo2")
标签
- 合成数据 (
synthetic) - 自动标注 (
distilabel) - RLAIF (
rlaif)



