ryota39/dpo-49k
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ryota39/dpo-49k
下载链接
链接失效反馈官方服务:
资源简介:
该README文件描述了多个数据集,包括llm-jp/hh-rlhf-12k-ja、cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental、ryota39/boolq-3k-ja、google/boolq、ryota39/truthy-dpo-ja和jondurbin/truthy-dpo-v0.1。这些数据集的样本数量从1k到29k不等,生成方式包括使用Anthropic社的Claude-52B模型生成用户输入和响应,以及通过翻译和引用其他数据集生成。chosen/rejected的判定过程涉及手工作业或使用奖励模型。数据格式包括prompt、chosen、rejected和dataset_name字段。
该README文件描述了多个数据集,包括llm-jp/hh-rlhf-12k-ja、cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental、ryota39/boolq-3k-ja、google/boolq、ryota39/truthy-dpo-ja和jondurbin/truthy-dpo-v0.1。这些数据集的样本数量从1k到29k不等,生成方式包括使用Anthropic社的Claude-52B模型生成用户输入和响应,以及通过翻译和引用其他数据集生成。chosen/rejected的判定过程涉及手工作业或使用奖励模型。数据格式包括prompt、chosen、rejected和dataset_name字段。
提供机构:
ryota39
原始信息汇总
数据集概述
数据集列表
| 数据集名称 | 样本数量 | 数据生成方式 | 许可证 |
|---|---|---|---|
| llm-jp/hh-rlhf-12k-ja | 12k | 使用Anthropic社开发的Claude-52B生成用户输入和响应文,chosen/rejected由人工判定,数据集通过deepl翻译 | MIT |
| cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental | 29k | 用户输入来自chatbot-arena的CC-BY 4.0用户输入,和译自wmt21-dense-24-wide-en-x的MIT许可内容,响应文由calm2-7b-chat生成,chosen/rejected判定使用reward-model-deberta-v3-large-v2 | cc-by-4.0 |
| ryota39/boolq-3k-ja | 3k | 用户输入来自Google搜索引擎的实际输入日志,响应文从Wikipedia文章中摘录并由标注者手工添加,chosen/rejected判定为Yes/No回答为rejected,引用Wikipedia回答为chosen,翻译使用gemma-7b-it-bnb-4bit | cc-by-sa3.0 |
| google/boolq | 3k | 上述和译文对应的英文原文 | cc-by-sa3.0 |
| ryota39/truthy-dpo-ja | 1k | 未记录,翻译使用gemma-7b-it-bnb-4bit | cc-by-4.0 |
| jondurbin/truthy-dpo-v0.1 | 1k | 未记录,上述和译文对应的英文原文 | cc-by-4.0 |
| total | 49k (49,238) | cc-by-sa3.0 |
数据格式示例
json { prompt: [ { from: human, value: 生理食塩水と食塩水は同じものですか } ], chosen: いいえ。塩水は、水に塩化ナトリウムを溶かしたもので、医学的に様々な用途があります。患部へ塗布すると傷口の洗浄やコンタクトレンズの除去、ドライアイの治療に役立ちます。静脈注射すると下痢や糖尿病性 ketoacidosis の脱水症の治療に役立ちます。また、注射で投与する他の薬剤を薄めるのに使われます。, rejected: いいえ。, dataset_name: ryota39/boolq-3k-ja }



