llama-duo/synth_summarize_dataset_dedup
收藏Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/llama-duo/synth_summarize_dataset_dedup
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: category
dtype: string
- name: generator
dtype: string
- name: seed_prompt
dtype: string
splits:
- name: test
num_bytes: 89079
num_examples: 25
- name: train_sft_gpt4o
num_bytes: 1134293655
num_examples: 288440
- name: train_sft_gemini1_5flash
num_bytes: 1132074791
num_examples: 291145
- name: train_sft_claude3sonnet
num_bytes: 1299877473
num_examples: 300639
download_size: 573263360
dataset_size: 3566334998
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
- split: train_sft_gpt4o
path: data/train_sft_gpt4o-*
- split: train_sft_gemini1_5flash
path: data/train_sft_gemini1_5flash-*
- split: train_sft_claude3sonnet
path: data/train_sft_claude3sonnet-*
---
提供机构:
llama-duo
原始信息汇总
数据集概述
数据集特征
- prompt: 数据类型为字符串。
- prompt_id: 数据类型为字符串。
- messages: 列表类型,包含以下子特征:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- category: 数据类型为字符串。
- generator: 数据类型为字符串。
- seed_prompt: 数据类型为字符串。
数据集分割
- test: 包含25个样本,数据大小为89079字节。
- train_sft_gpt4o: 包含288440个样本,数据大小为1134293655字节。
- train_sft_gemini1_5flash: 包含291145个样本,数据大小为1132074791字节。
- train_sft_claude3sonnet: 包含300639个样本,数据大小为1299877473字节。
数据集大小
- 下载大小: 573263360字节。
- 数据集总大小: 3566334998字节。
配置文件
- config_name: default
- data_files:
- test: 路径为
data/test-*。 - train_sft_gpt4o: 路径为
data/train_sft_gpt4o-*。 - train_sft_gemini1_5flash: 路径为
data/train_sft_gemini1_5flash-*。 - train_sft_claude3sonnet: 路径为
data/train_sft_claude3sonnet-*。
- test: 路径为



