Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered

收藏

Hugging Face2024-05-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于文本生成任务，包含多个特征字段，如指令、接受的响应、拒绝的响应等，并且每个字段都有其原始版本和语言检测相关的特征。数据集的创建过程包括从现有数据集加载数据、使用模型进行零样本分类、过滤特定类别的数据、翻译数据以及进一步的清理和过滤。

该数据集主要用于文本生成任务，包含多个特征字段，如指令、接受的响应、拒绝的响应等，并且每个字段都有其原始版本和语言检测相关的特征。数据集的创建过程包括从现有数据集加载数据、使用模型进行零样本分类、过滤特定类别的数据、翻译数据以及进一步的清理和过滤。

提供机构：

Finnish-NLP

原始信息汇总

数据集卡片 for Finnish-NLP/ultrafeedback_deepl_sft_dpo_filtered

数据集信息

特征

instruction: 字符串类型
response_accepted: 字符串类型
response_rejected: 字符串类型
instruction_orig: 字符串类型
response_accepted_orig: 字符串类型
response_rejected_orig: 字符串类型
instruction_perplexity_kenlm: 64位整数类型
chosen_response_perplexity_kenlm: 64位整数类型
rejected_response_perplexity_kenlm: 64位整数类型
combined_perplexity_dpo: 64位整数类型
combined_perplexity_sft: 64位整数类型
instruction_lang: 字符串类型
instruction_lang_proba: 64位浮点数类型
chosen_response_lang: 字符串类型
chosen_response_lang_proba: 64位浮点数类型
rejected_response_lang: 字符串类型
rejected_response_lang_proba: 64位浮点数类型
perplexity_instruction_len_ratio: 64位浮点数类型
perplexity_response_len_ratio: 64位浮点数类型
dataset_source: 字符串类型
text: 字符串类型
response_orig_grade: 字符串类型
response_judgelm: 字符串类型
index_level_0: 64位整数类型

分割

train:
- 字节数: 114267090
- 样本数: 12706

大小

下载大小: 65004266
数据集大小: 114267090

配置

config_name: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作