croissantllm/CroissantLLM-2201-sft
收藏Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/croissantllm/CroissantLLM-2201-sft
下载链接
链接失效反馈官方服务:
资源简介:
CroissantChat SFT数据集是一个用于训练双语(法语-英语)语言模型的数据集。数据集包含对话、语言、分割、数据集和任务等特征。对话特征进一步细分为来源、Markdown格式的答案、文本和值。数据集的分割包括训练集,训练集包含294,220个示例,大小为1,184,454,542字节。该数据集用于支持CroissantLLM模型的训练,该模型是一个真正的双语(法语-英语)语言模型。
CroissantChat SFT数据集是一个用于训练双语(法语-英语)语言模型的数据集。数据集包含对话、语言、分割、数据集和任务等特征。对话特征进一步细分为来源、Markdown格式的答案、文本和值。数据集的分割包括训练集,训练集包含294,220个示例,大小为1,184,454,542字节。该数据集用于支持CroissantLLM模型的训练,该模型是一个真正的双语(法语-英语)语言模型。
提供机构:
croissantllm
原始信息汇总
数据集概述
数据集信息
-
特征:
- conversations:
- from: 类型为字符串
- markdown:
- answer: 类型为字符串
- index: 类型为整数64位
- type: 类型为字符串
- text: 类型为字符串
- value: 类型为字符串
- lang: 类型为字符串
- split: 类型为字符串
- dataset: 类型为字符串
- task: 类型为字符串
- conversations:
-
拆分:
- train:
- 字节数: 1184454542
- 样本数: 294220
- train:
-
下载大小: 566386739
-
数据集大小: 1184454542
配置
- 配置名称: default
- 数据文件:
- 拆分: train
- 路径: data/train-*
- 数据文件:



