five

ryota39/open_preference_v0.1

收藏
Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ryota39/open_preference_v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含多个子数据集的日语强化学习从人类反馈(RLHF)数据集。数据集的质量因合成生成文本和机器翻译API的结合而有所下降。数据集包括以下子集:llm-jp/hh-rlhf-12k-ja(12k样本,使用Anthropic社开发的Claude-52B生成用户输入和响应,通过人工判定选定/拒绝,使用DeepL翻译),cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental(29k样本,用户输入来自chatbot-arena,和译自wmt21-dense-24-wide-en-x,响应生成使用calm2-7b-chat,选定/拒绝判定使用reward-model-deberta-v3-large-v2),ryota39/boolq-3k-ja(3k样本,用户输入来自Google搜索日志,响应来自Wikipedia文章,选定/拒绝判定为Yes/No回答或引用Wikipedia回答,翻译使用gemma-7b-it-bnb-4bit),google/boolq(3k样本,英文翻译),ryota39/truthy-dpo-ja(1k样本,未详细描述,翻译使用gemma-7b-it-bnb-4bit),jondurbin/truthy-dpo-v0.1(1k样本,英文翻译)。数据集总样本数为49,238,随机分为训练和测试集,比例为9:1。

这是一个包含多个子数据集的日语强化学习从人类反馈(RLHF)数据集。数据集的质量因合成生成文本和机器翻译API的结合而有所下降。数据集包括以下子集:llm-jp/hh-rlhf-12k-ja(12k样本,使用Anthropic社开发的Claude-52B生成用户输入和响应,通过人工判定选定/拒绝,使用DeepL翻译),cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental(29k样本,用户输入来自chatbot-arena,和译自wmt21-dense-24-wide-en-x,响应生成使用calm2-7b-chat,选定/拒绝判定使用reward-model-deberta-v3-large-v2),ryota39/boolq-3k-ja(3k样本,用户输入来自Google搜索日志,响应来自Wikipedia文章,选定/拒绝判定为Yes/No回答或引用Wikipedia回答,翻译使用gemma-7b-it-bnb-4bit),google/boolq(3k样本,英文翻译),ryota39/truthy-dpo-ja(1k样本,未详细描述,翻译使用gemma-7b-it-bnb-4bit),jondurbin/truthy-dpo-v0.1(1k样本,英文翻译)。数据集总样本数为49,238,随机分为训练和测试集,比例为9:1。
提供机构:
ryota39
原始信息汇总

数据集概述

描述

  • 这是一个公开的日本语RLHF(Reinforcement Learning from Human Feedback)数据集。
  • 数据集中的日语文本质量较低,主要是因为结合了合成生成的文本和机器翻译API的结果。

详细信息

数据集名称 样本数量 数据生成方式 许可证
llm-jp/hh-rlhf-12k-ja 12k 使用Anthropic社开发的Claude-52B模型生成用户输入和响应文,chosen/rejected由人工判定,数据集通过deepl翻译 MIT
cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental 29k 用户输入:chatbot-arena的用户输入,和訳:wmt21-dense-24-wide-en-x,响应文生成:calm2-7b-chat,chosen/rejected判定:reward-model-deberta-v3-large-v2 cc-by-4.0
ryota39/boolq-3k-ja 3k 用户输入:Google搜索引擎的真实输入日志,响应文:从Wikipedia文章中提取并由标注者手工添加,chosen/rejected判定:Yes/No回答为rejected,引用Wikipedia回答为chosen,翻译:gemma-7b-it-bnb-4bit cc-by-sa3.0
google/boolq 3k 上述和訳文对应的英文 cc-by-sa3.0
ryota39/truthy-dpo-ja 1k 未记录,翻译:gemma-7b-it-bnb-4bit cc-by-4.0
jondurbin/truthy-dpo-v0.1 1k 未记录,上述和訳文对应的英文 cc-by-4.0
total 49k(49,238) cc-by-sa3.0

数据格式

json { prompt: [ { from: human, value: 生理食塩水と食塩水は同じものですか } ], chosen: いいえ。塩水は、水に塩化ナトリウムを溶かしたもので、医学的に様々な用途があります。患部へ塗布すると傷口の洗浄やコンタクトレンズの除去、ドライアイの治療に役立ちます。静脈注射すると下痢や糖尿病性 ketoacidosis の脱水症の治療に役立ちます。また、注射で投与する他の薬剤を薄めるのに使われます。, rejected: いいえ。, dataset_name: ryota39/boolq-3k-ja }

数据分割

数据集被随机分为训练集和测试集,比例为9:1,基于ryota39/dpo-49k数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作