Finnish-NLP/belebele-fi-filtered-sft
收藏Hugging Face2024-02-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Finnish-NLP/belebele-fi-filtered-sft
下载链接
链接失效反馈官方服务:
资源简介:
数据集Finnish-NLP/benebele主要包含芬兰语的文本数据,适用于文本生成和问答任务。数据集的特征包括id、source、text、chosen、rejected、prommpt、conversations、category、conversations_len、person_1、person_2、instruction、response和sample_words等字段。数据集的分割为训练集,包含300个样本。数据集的创建过程是从facebook/belebele加载的芬兰语子集。
数据集Finnish-NLP/benebele主要包含芬兰语的文本数据,适用于文本生成和问答任务。数据集的特征包括id、source、text、chosen、rejected、prommpt、conversations、category、conversations_len、person_1、person_2、instruction、response和sample_words等字段。数据集的分割为训练集,包含300个样本。数据集的创建过程是从facebook/belebele加载的芬兰语子集。
提供机构:
Finnish-NLP
原始信息汇总
数据集概述
数据集信息
特征
- id: 类型为字符串。
- source: 类型为空。
- text: 类型为空。
- chosen: 类型为空。
- rejected: 类型为空。
- prommpt: 类型为空。
- conversations: 列表类型,包含以下字段:
- from: 类型为字符串。
- value: 类型为字符串。
- category: 类型为字符串。
- conversations_len: 类型为整数64位。
- person_1: 类型为字符串。
- person_2: 类型为字符串。
- instruction: 类型为字符串。
- response: 类型为字符串。
- sample_words: 类型为整数64位。
数据分割
- train: 包含414674字节,300个样本。
文件大小
- 下载大小: 269823字节。
- 数据集大小: 414674字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。
许可
- cc-by-sa-4.0
任务类别
- 文本生成
- 问答
语言
- 芬兰语



