llama-duo/synth_classification_dataset_dedup
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/llama-duo/synth_classification_dataset_dedup
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如生成器、提示ID、种子提示、消息列表、类别和提示。消息列表进一步包含内容和角色。数据集分为训练集和测试集,训练集包含92634个示例,测试集包含16个示例。数据集的总下载大小为38052768字节,总数据集大小为247374681字节。
提供机构:
llama-duo
原始信息汇总
数据集概述
特征信息
- generator: 数据类型为字符串。
- prompt_id: 数据类型为字符串。
- seed_prompt: 数据类型为字符串。
- messages: 包含以下子特征:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- category: 数据类型为字符串。
- prompt: 数据类型为字符串。
数据分割
- train_sft_gpt4o: 字节数为247360484,样本数为92634。
- test: 字节数为14197,样本数为16。
数据集大小
- 下载大小: 38052768字节。
- 数据集大小: 247374681字节。
配置信息
- default: 包含以下数据文件:
- train_sft_gpt4o: 路径为
data/train_sft_gpt4o-*。 - test: 路径为
data/test-*。
- train_sft_gpt4o: 路径为



