chansung/synth_summarize_dataset
收藏Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/chansung/synth_summarize_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: category
dtype: string
- name: generator
dtype: string
- name: seed_prompt
dtype: string
splits:
- name: test
num_bytes: 89079
num_examples: 25
- name: train_sft_gpt4o
num_bytes: 1134293655
num_examples: 288440
- name: train_sft_gemini1_5flash
num_bytes: 1132074791
num_examples: 291145
- name: train_sft_claude3sonnet
num_bytes: 1299831985.5417352
num_examples: 300639
download_size: 573263360
dataset_size: 3566289510.541735
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
- split: train_sft_gpt4o
path: data/train_sft_gpt4o-*
- split: train_sft_gemini1_5flash
path: data/train_sft_gemini1_5flash-*
- split: train_sft_claude3sonnet
path: data/train_sft_claude3sonnet-*
---
数据集信息:
特征字段:
- 名称:提示词(prompt),数据类型:字符串
- 名称:提示词ID(prompt_id),数据类型:字符串
- 名称:对话消息(messages),为列表类型,列表元素包含:
- 名称:内容(content),数据类型:字符串
- 名称:角色(role),数据类型:字符串
- 名称:类别(category),数据类型:字符串
- 名称:生成器(generator),数据类型:字符串
- 名称:种子提示词(seed_prompt),数据类型:字符串
数据集划分:
- 划分名称:测试集(test),字节大小:89079,样本数量:25
- 划分名称:GPT-4o 监督微调训练集(train_sft_gpt4o),字节大小:1134293655,样本数量:288440
- 划分名称:Gemini 1.5 Flash 监督微调训练集(train_sft_gemini1_5flash),字节大小:1132074791,样本数量:291145
- 划分名称:Claude 3 Sonnet 监督微调训练集(train_sft_claude3sonnet),字节大小:1299831985.5417352,样本数量:300639
下载大小:573263360
数据集总大小:3566289510.541735
配置项:
- 配置名称:默认(default),数据文件:
- 对应划分:测试集(test),路径:data/test-*
- 对应划分:GPT-4o 监督微调训练集(train_sft_gpt4o),路径:data/train_sft_gpt4o-*
- 对应划分:Gemini 1.5 Flash 监督微调训练集(train_sft_gemini1_5flash),路径:data/train_sft_gemini1_5flash-*
- 对应划分:Claude 3 Sonnet 监督微调训练集(train_sft_claude3sonnet),路径:data/train_sft_claude3sonnet-*
提供机构:
chansung
原始信息汇总
数据集概述
数据集特征
- prompt: 数据类型为字符串。
- prompt_id: 数据类型为字符串。
- messages: 包含以下子特征:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- category: 数据类型为字符串。
- generator: 数据类型为字符串。
- seed_prompt: 数据类型为字符串。
数据集分割
- test: 包含25个示例,占用89079字节。
- train_sft_gpt4o: 包含288440个示例,占用1134293655字节。
- train_sft_gemini1_5flash: 包含291145个示例,占用1132074791字节。
- train_sft_claude3sonnet: 包含300639个示例,占用1299831985.5417352字节。
数据集大小
- 下载大小: 573263360字节。
- 数据集总大小: 3566289510.541735字节。
配置文件
- 配置名: default
- 数据文件路径:
- test: data/test-*
- train_sft_gpt4o: data/train_sft_gpt4o-*
- train_sft_gemini1_5flash: data/train_sft_gemini1_5flash-*
- train_sft_claude3sonnet: data/train_sft_claude3sonnet-*



