Finnish-NLP/boolq-deepl-translated-sft
收藏Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Finnish-NLP/boolq-deepl-translated-sft
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Finnish-NLP/boolq-deepl-translated-sft,主要用于文本生成任务。数据集包含指令、响应、原始指令、原始响应、响应长度、排名、索引级别、原始响应等级和响应判断等特征。数据集包含一个训练分割,大小为3272561字节,包含2160个示例。创建过程涉及从google/boolq加载数据,使用DeepL进行翻译,并将翻译后的数据写入.txt文件,可能还包括基于fasttext langdetect / kenlm perplexity的额外清理/过滤。
该数据集名为Finnish-NLP/boolq-deepl-translated-sft,主要用于文本生成任务。数据集包含指令、响应、原始指令、原始响应、响应长度、排名、索引级别、原始响应等级和响应判断等特征。数据集包含一个训练分割,大小为3272561字节,包含2160个示例。创建过程涉及从google/boolq加载数据,使用DeepL进行翻译,并将翻译后的数据写入.txt文件,可能还包括基于fasttext langdetect / kenlm perplexity的额外清理/过滤。
提供机构:
Finnish-NLP
原始信息汇总
数据集卡片 for Finnish-NLP/boolq-deepl-translated-sft
数据集信息
语言
- 芬兰语 (fi)
许可证
- CC BY-SA 3.0
任务类别
- 文本生成
特征
- instruction: 字符串
- response: 字符串
- instruction_orig: 字符串
- response_orig: 字符串
- response_len: 整数 (int64)
- rank: 浮点数 (float64)
- index_level_0: 整数 (int64)
- response_orig_grade: 字符串
- response_judgelm: 字符串
分割
- train:
- 字节数: 3272561
- 样本数: 2160
下载大小
- 1872337 字节
数据集大小
- 3272561 字节
配置
- default:
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:
创建过程
- 从 google/boolq 加载通过 deepl 翻译的数据
- 将行写入 .txt 文件,使用 *** 在新行上分隔 instruction/response,然后使用 END 在新行上分隔样本
- 将文件上传到 deepl.com 进行文件翻译 --> 从翻译文件中解析样本 --> 可能基于 fasttext langdetect / kenlm perplexity 进行一些额外的清洗/过滤



