Finnish-NLP/belebele-fi-filtered-sft

Name: Finnish-NLP/belebele-fi-filtered-sft
Creator: Finnish-NLP
Published: 2024-02-13 21:32:14
License: 暂无描述

Hugging Face2024-02-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Finnish-NLP/belebele-fi-filtered-sft

下载链接

链接失效反馈

官方服务：

资源简介：

数据集Finnish-NLP/benebele主要包含芬兰语的文本数据，适用于文本生成和问答任务。数据集的特征包括id、source、text、chosen、rejected、prommpt、conversations、category、conversations_len、person_1、person_2、instruction、response和sample_words等字段。数据集的分割为训练集，包含300个样本。数据集的创建过程是从facebook/belebele加载的芬兰语子集。

提供机构：

Finnish-NLP

原始信息汇总

数据集概述

数据集信息

特征

id: 类型为字符串。
source: 类型为空。
text: 类型为空。
chosen: 类型为空。
rejected: 类型为空。
prommpt: 类型为空。
conversations: 列表类型，包含以下字段：
- from: 类型为字符串。
- value: 类型为字符串。
category: 类型为字符串。
conversations_len: 类型为整数64位。
person_1: 类型为字符串。
person_2: 类型为字符串。
instruction: 类型为字符串。
response: 类型为字符串。
sample_words: 类型为整数64位。

数据分割

train: 包含414674字节，300个样本。

文件大小

下载大小: 269823字节。
数据集大小: 414674字节。

配置

default: 包含训练数据文件，路径为data/train-*。

许可

cc-by-sa-4.0

任务类别

文本生成
问答

语言

芬兰语

5,000+

优质数据集

54 个

任务类型

进入经典数据集