Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered
收藏Hugging Face2024-05-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于文本生成任务,包含多个特征字段,如指令、接受的响应、拒绝的响应等,并且每个字段都有其原始版本和语言检测相关的特征。数据集的创建过程包括从现有数据集加载数据、使用模型进行零样本分类、过滤特定类别的数据、翻译数据以及进一步的清理和过滤。
该数据集主要用于文本生成任务,包含多个特征字段,如指令、接受的响应、拒绝的响应等,并且每个字段都有其原始版本和语言检测相关的特征。数据集的创建过程包括从现有数据集加载数据、使用模型进行零样本分类、过滤特定类别的数据、翻译数据以及进一步的清理和过滤。
提供机构:
Finnish-NLP
原始信息汇总
数据集卡片 for Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered
数据集信息
特征
- instruction: 字符串类型
- response_accepted: 字符串类型
- response_rejected: 字符串类型
- instruction_orig: 字符串类型
- response_accepted_orig: 字符串类型
- response_rejected_orig: 字符串类型
- instruction_perplexity_kenlm: 64位整数类型
- chosen_response_perplexity_kenlm: 64位整数类型
- rejected_response_perplexity_kenlm: 64位整数类型
- combined_perplexity_dpo: 64位整数类型
- combined_perplexity_sft: 64位整数类型
- instruction_lang: 字符串类型
- instruction_lang_proba: 64位浮点数类型
- chosen_response_lang: 字符串类型
- chosen_response_lang_proba: 64位浮点数类型
- rejected_response_lang: 字符串类型
- rejected_response_lang_proba: 64位浮点数类型
- perplexity_instruction_len_ratio: 64位浮点数类型
- perplexity_response_len_ratio: 64位浮点数类型
- dataset_source: 字符串类型
- text: 字符串类型
- response_orig_grade: 字符串类型
- response_judgelm: 字符串类型
- index_level_0: 64位整数类型
分割
- train:
- 字节数: 114267090
- 样本数: 12706
大小
- 下载大小: 65004266
- 数据集大小: 114267090
配置
- config_name: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:



