llama-duo/synth_summarize_dataset_dedup

Name: llama-duo/synth_summarize_dataset_dedup
Creator: llama-duo
Published: 2024-05-31 03:50:10
License: 暂无描述

Hugging Face2024-05-31 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/llama-duo/synth_summarize_dataset_dedup

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: category dtype: string - name: generator dtype: string - name: seed_prompt dtype: string splits: - name: test num_bytes: 89079 num_examples: 25 - name: train_sft_gpt4o num_bytes: 1134293655 num_examples: 288440 - name: train_sft_gemini1_5flash num_bytes: 1132074791 num_examples: 291145 - name: train_sft_claude3sonnet num_bytes: 1299877473 num_examples: 300639 download_size: 573263360 dataset_size: 3566334998 configs: - config_name: default data_files: - split: test path: data/test-* - split: train_sft_gpt4o path: data/train_sft_gpt4o-* - split: train_sft_gemini1_5flash path: data/train_sft_gemini1_5flash-* - split: train_sft_claude3sonnet path: data/train_sft_claude3sonnet-* ---

提供机构：

llama-duo

原始信息汇总

数据集概述

数据集特征

prompt: 数据类型为字符串。
prompt_id: 数据类型为字符串。
messages: 列表类型，包含以下子特征：
- content: 数据类型为字符串。
- role: 数据类型为字符串。
category: 数据类型为字符串。
generator: 数据类型为字符串。
seed_prompt: 数据类型为字符串。

数据集分割

test: 包含25个样本，数据大小为89079字节。
train_sft_gpt4o: 包含288440个样本，数据大小为1134293655字节。
train_sft_gemini1_5flash: 包含291145个样本，数据大小为1132074791字节。
train_sft_claude3sonnet: 包含300639个样本，数据大小为1299877473字节。

数据集大小

下载大小: 573263360字节。
数据集总大小: 3566334998字节。

配置文件

config_name: default
data_files:
- test: 路径为data/test-*。
- train_sft_gpt4o: 路径为data/train_sft_gpt4o-*。
- train_sft_gemini1_5flash: 路径为data/train_sft_gemini1_5flash-*。
- train_sft_claude3sonnet: 路径为data/train_sft_claude3sonnet-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集