llama-duo/synth_closed_qa_dataset_dedup
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/llama-duo/synth_closed_qa_dataset_dedup
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如生成器、提示ID、种子提示、消息、类别和提示。消息特征是一个列表,包含内容和角色。数据集分为两个部分:train_sft_gpt4o和test,分别包含111440和15个示例。数据集的下载大小为90956372字节,总大小为446484898字节。
The dataset includes multiple features such as generator, prompt_id, seed_prompt, messages (containing content and role), category, and prompt, all of which are string types. The dataset is divided into training and testing parts, with 111440 samples in the training part and 15 samples in the testing part. The download size of the dataset is 90956372 bytes, and the total size is 446484898 bytes. The dataset configuration is default, with data file paths being data/train_sft_gpt4o-* and data/test-*, respectively.
提供机构:
llama-duo
原始信息汇总
数据集概述
数据集特征
- generator:数据类型为字符串。
- prompt_id:数据类型为字符串。
- seed_prompt:数据类型为字符串。
- messages:列表类型,包含以下子特征:
- content:数据类型为字符串。
- role:数据类型为字符串。
- category:数据类型为字符串。
- prompt:数据类型为字符串。
数据集分割
- train_sft_gpt4o:包含111440个样本,总大小为446430870字节。
- test:包含15个样本,总大小为54028字节。
数据集大小
- 下载大小:90956372字节。
- 数据集总大小:446484898字节。
数据文件配置
- default 配置下,数据文件路径如下:
- train_sft_gpt4o:路径为
data/train_sft_gpt4o-*。 - test:路径为
data/test-*。
- train_sft_gpt4o:路径为



