BramVanroy/dutch_chat_datasets

Name: BramVanroy/dutch_chat_datasets
Creator: BramVanroy
Published: 2024-01-10 10:06:31
License: 暂无描述

Hugging Face2024-01-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BramVanroy/dutch_chat_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是多个荷兰语聊天数据集的合并，包括BramVanroy/dolly-15k-dutch、BramVanroy/alpaca-cleaned-dutch-baize、BramVanroy/stackoverflow-chat-dutch和BramVanroy/quora-chat-dutch。这些数据集被重新格式化，以便于下游任务（如语言建模）的处理。数据集包含训练和测试两个分割，每个分割包含对话数据，对话数据由角色（用户或助手）和内容组成。

提供机构：

BramVanroy

原始信息汇总

数据集概述

基本信息

语言: 荷兰语 (nl)
数据规模: 100K<n<1M
任务类别:
- 问答 (question-answering)
- 文本生成 (text-generation)
- 对话 (conversational)
数据集名称: Chat Datasets for Dutch

数据结构

特征:
- prompt: 字符串 (string)
- prompt_id: 字符串 (string)
- messages: 列表 (list)
  - content: 字符串 (string)
  - role: 字符串 (string)

数据分割

训练集 (train_sft):
- 字节数: 198305113
- 样本数: 160248
测试集 (test_sft):
- 字节数: 22076114
- 样本数: 17806

数据集大小

下载大小: 124497015 字节
数据集大小: 220381227 字节

配置

默认配置 (default):
- 数据文件:
  - 训练集 (train_sft): data/train_sft-*
  - 测试集 (test_sft): data/test_sft-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集