croissantllm/CroissantLLM-2201-sft

Name: croissantllm/CroissantLLM-2201-sft
Creator: croissantllm
Published: 2024-02-15 08:46:36
License: 暂无描述

Hugging Face2024-02-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/croissantllm/CroissantLLM-2201-sft

下载链接

链接失效反馈

官方服务：

资源简介：

CroissantChat SFT数据集是一个用于训练双语（法语-英语）语言模型的数据集。数据集包含对话、语言、分割、数据集和任务等特征。对话特征进一步细分为来源、Markdown格式的答案、文本和值。数据集的分割包括训练集，训练集包含294,220个示例，大小为1,184,454,542字节。该数据集用于支持CroissantLLM模型的训练，该模型是一个真正的双语（法语-英语）语言模型。

提供机构：

croissantllm

原始信息汇总

数据集概述

数据集信息

特征:
- conversations:
  - from: 类型为字符串
  - markdown:
    - answer: 类型为字符串
    - index: 类型为整数64位
    - type: 类型为字符串
  - text: 类型为字符串
  - value: 类型为字符串
- lang: 类型为字符串
- split: 类型为字符串
- dataset: 类型为字符串
- task: 类型为字符串
拆分:
- train:
  - 字节数: 1184454542
  - 样本数: 294220
下载大小: 566386739
数据集大小: 1184454542

配置

配置名称: default
- 数据文件:
  - 拆分: train
  - 路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集