fozziethebeat/alpaca_messages_2k_dpo_test
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/fozziethebeat/alpaca_messages_2k_dpo_test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,包括instruction(指令)、input(输入)、output(输出)、conversation(对话)、chosen(选择的回答)和rejected(拒绝的回答)。每个字段都有其特定的数据类型。数据集分为训练集和测试集,训练集包含1800个样本,测试集包含200个样本。数据集的下载大小为2550847字节,总大小为4346619字节。配置信息指定了数据文件的路径。
The dataset contains multiple feature fields, including instruction, input, output, conversation, chosen, and rejected. Each field has its specific data type. The dataset is divided into a training set and a test set, with the training set containing 1800 samples and the test set containing 200 samples. The download size of the dataset is 2550847 bytes, and the total size is 4346619 bytes. Configuration information specifies the paths to the data files.
提供机构:
fozziethebeat
原始信息汇总
数据集概述
数据集信息
特征
- instruction: 类型为字符串。
- input: 类型为字符串。
- output: 类型为字符串。
- conversation: 列表类型,包含以下字段:
- content: 类型为字符串。
- role: 类型为字符串。
- chosen: 结构类型,包含以下字段:
- content: 类型为字符串。
- role: 类型为字符串。
- rejected: 结构类型,包含以下字段:
- content: 类型为字符串。
- role: 类型为字符串。
数据分割
- train: 包含1800个样本,占用3926001字节。
- test: 包含200个样本,占用420618字节。
数据集大小
- 下载大小: 2550847字节。
- 数据集总大小: 4346619字节。
配置
- default: 包含以下数据文件路径:
- train:
data/train-* - test:
data/test-*
- train:
搜集汇总
数据集介绍

背景与挑战
背景概述
This dataset contains 2,000 text-based interactions, including instructions, inputs, outputs, and conversations, with paired 'chosen' and 'rejected' responses. It is formatted in Parquet and appears tailored for text generation and preference optimization tasks, such as evaluating or training models using DPO methodologies.
以上内容由遇见数据集搜集并总结生成



