five

Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered

收藏
Hugging Face2024-05-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于文本生成任务,包含多个特征字段,如指令、接受的响应、拒绝的响应等,并且每个字段都有其原始版本和语言检测相关的特征。数据集的创建过程包括从现有数据集加载数据、使用模型进行零样本分类、过滤特定类别的数据、翻译数据以及进一步的清理和过滤。

该数据集主要用于文本生成任务,包含多个特征字段,如指令、接受的响应、拒绝的响应等,并且每个字段都有其原始版本和语言检测相关的特征。数据集的创建过程包括从现有数据集加载数据、使用模型进行零样本分类、过滤特定类别的数据、翻译数据以及进一步的清理和过滤。
提供机构:
Finnish-NLP
原始信息汇总

数据集卡片 for Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered

数据集信息

特征

  • instruction: 字符串类型
  • response_accepted: 字符串类型
  • response_rejected: 字符串类型
  • instruction_orig: 字符串类型
  • response_accepted_orig: 字符串类型
  • response_rejected_orig: 字符串类型
  • instruction_perplexity_kenlm: 64位整数类型
  • chosen_response_perplexity_kenlm: 64位整数类型
  • rejected_response_perplexity_kenlm: 64位整数类型
  • combined_perplexity_dpo: 64位整数类型
  • combined_perplexity_sft: 64位整数类型
  • instruction_lang: 字符串类型
  • instruction_lang_proba: 64位浮点数类型
  • chosen_response_lang: 字符串类型
  • chosen_response_lang_proba: 64位浮点数类型
  • rejected_response_lang: 字符串类型
  • rejected_response_lang_proba: 64位浮点数类型
  • perplexity_instruction_len_ratio: 64位浮点数类型
  • perplexity_response_len_ratio: 64位浮点数类型
  • dataset_source: 字符串类型
  • text: 字符串类型
  • response_orig_grade: 字符串类型
  • response_judgelm: 字符串类型
  • index_level_0: 64位整数类型

分割

  • train:
    • 字节数: 114267090
    • 样本数: 12706

大小

  • 下载大小: 65004266
  • 数据集大小: 114267090

配置

  • config_name: default
    • 数据文件:
      • 分割: train
      • 路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作