five

open_preference_v0.4

收藏
Hugging Face2024-08-16 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ryota39/open_preference_v0.4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于ryota39/synthetic-instruct-gptj-pairwise-ja和ryota39/webgpt_comparisons-ja两个数据集的重新格式化版本。数据集包含199628个训练样本,1000个验证样本和1000个测试样本,以及417个跳过样本。标签1表示被选中的句子,标签0表示被拒绝的句子。数据集中的样本包括日语和英语的对话,每个样本包含索引、输入文本、标签和来源信息。
创建时间:
2024-08-16
原始信息汇总

数据集概述

数据来源

标签说明

  • label 1 表示选中的句子
  • label 0 表示被拒绝的句子

数据格式

  • 训练样本数:199628
  • 验证样本数:1000
  • 测试样本数:1000
  • 跳过样本数:417(选择了相同的选择和拒绝响应的数据点被消除)

示例数据

json { "index": 33045, "input": "user: 今年知っておくべき税法の変更点にはどのようなものがありますか。 assistant: 今年知っておくべき主要な税法の変更点には、最高限界税率の37%から21%への引き下げ、いくつかの項目別控除の廃止、および標準控除の増加があります。また、税額控除と雇用法(Tax Cuts and Jobs Act)により、特定のパススルー企業に対する20%の適格事業所得控除が導入されました。", "label": 1, "source": "team-hatakeyama-phase2/SyntheticInstructGPTJPairwise_ja" }, { "index": 17393, "input": "user: Why do scrapes and other injuries feel more painful when its cold outside?

assistant: One reason injuries may seem more painful in cold weather is because of the change in barometric pressure that comes with a drop in temperature. This increase in pressure on the nerves intensifies the pain signals sent to the brain. Soft tissues also become firmer in cold weather, resulting in painful muscle spasms. ", "label": 0, "source": "team-hatakeyama-phase2/WebGPTComparisons_ja" }, { "index": 33026, "input": "user: 鶏胸肉を使ったレシピを見せていただけますか。 assistant: 照り焼きハニーマスタードチキン: 材料: 鶏胸肉4枚、低ナトリウム醤油1/3カップ、蜂蜜1/3カップ、オリーブオイル大さじ2、みじん切りガーリック3片、乾燥オレガノ1/2小さじ、赤唐辛子フレーク1/4小さじ、塩と新鮮な黒胡椒、 手順:

  1. 屋外のグリルを中火に予熱します。
  2. 中くらいのボウルに、醤油、蜂蜜、オリーブオイル、ガーリック、オレガノ、赤唐辛子フレークを混ぜ合わせます。味を見て塩と胡椒を加えます。
  3. 鶏胸肉を薄切りにして、浅いベーキングディッシュに並べます。マリネ液を均等に鶏肉にかけ、裏返して両面をコーティングします。
  4. グリルに鶏肉を並べ、両面がこんがりと焼けるまで約12分間焼きます。
  5. 残ったマリネ液をかけて、グリルした鶏肉を盛り付けます。お楽しみください。", "label": 1, "source": "team-hatakeyama-phase2/SyntheticInstructGPTJPairwise_ja" }, { "index": 17341, "input": "user: How did the fireworks instantly kill the guy that put the shell on his head?

Ive been trying to figure out how it could have killed him instantly. I see being severely burned and dying from his injuries, but cant understand the instant death. assistant: The mortar shell that killed Kralik was 3 inches in diameter. Police believe he thought he had plenty of time to let the wick burn, but it was instantaneous. These are commercial fireworks that are usually ignited with an electronic device. ", "label": 0, "source": "team-hatakeyama-phase2/WebGPTComparisons_ja" }

搜集汇总
数据集介绍
main_image_url
构建方式
open_preference_v0.4数据集是通过整合和重新格式化两个现有数据集构建而成,分别是ryota39/synthetic-instruct-gptj-pairwise-ja和ryota39/webgpt_comparisons-ja。数据集中的每个样本都包含用户输入和助手的响应,其中标签1表示被选择的响应,标签0表示被拒绝的响应。在构建过程中,删除了那些选择响应和拒绝响应相同的数据点,以确保数据的有效性和多样性。
特点
该数据集的特点在于其多语言支持,涵盖了英语和日语两种语言。数据集中的样本经过精心筛选,确保了高质量的用户输入和助手响应对。每个样本都经过标注,明确区分了被选择的响应和被拒绝的响应,这为模型训练提供了清晰的指导。此外,数据集的规模较大,训练集包含199628个样本,验证集和测试集各包含1000个样本,能够满足大规模模型训练的需求。
使用方法
open_preference_v0.4数据集主要用于训练和评估自然语言处理模型,特别是在偏好学习和对话系统中的应用。用户可以通过加载数据集并访问其训练、验证和测试集来进行模型训练和评估。每个样本包含用户输入、助手响应和标签信息,用户可以根据标签信息来指导模型的训练过程。此外,数据集的多语言特性使其适用于跨语言模型的开发和测试,为研究多语言对话系统提供了丰富的资源。
背景与挑战
背景概述
open_preference_v0.4数据集是一个经过重新格式化的数据集,主要来源于ryota39/synthetic-instruct-gptj-pairwise-ja和ryota39/webgpt_comparisons-ja两个数据集。该数据集旨在通过对比选择的方式,评估和优化自然语言生成模型的输出质量。数据集涵盖了英语和日语两种语言,主要应用于对话系统和文本生成领域。通过引入标签机制(1表示选择的句子,0表示拒绝的句子),该数据集为研究人员提供了一个有效的工具,用于训练和评估模型在生成高质量文本方面的能力。
当前挑战
open_preference_v0.4数据集在构建和应用过程中面临多重挑战。首先,数据集的核心任务是解决自然语言生成模型在生成高质量文本时的偏好选择问题,这要求模型能够准确理解并区分不同文本的质量差异。其次,数据集的构建过程中,研究人员需要处理大量原始数据,并确保数据的多样性和代表性,以避免模型过拟合。此外,由于数据集包含多语言内容,如何在跨语言环境下保持一致的评估标准也是一个重要的挑战。最后,数据集中存在一些重复或无效的数据点,如何在预处理阶段有效剔除这些数据点,同时保持数据集的完整性,是构建过程中的另一大难题。
常用场景
经典使用场景
在自然语言处理领域,open_preference_v0.4数据集常用于训练和评估对话系统的偏好学习模型。该数据集通过提供用户与助手之间的对话对,标注了哪些回答更受用户青睐,从而帮助模型学习如何生成更符合用户期望的响应。这种场景特别适用于需要优化对话系统用户体验的研究和应用。
解决学术问题
open_preference_v0.4数据集解决了对话系统中如何量化用户偏好这一关键问题。通过提供大量标注数据,研究人员可以训练模型识别和生成更符合用户期望的回答,从而提升对话系统的交互质量。这一数据集的出现,为对话系统的偏好学习研究提供了重要的数据支持,推动了该领域的进一步发展。
衍生相关工作
基于open_preference_v0.4数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了多种偏好学习算法,进一步优化了对话系统的响应生成能力。此外,该数据集还被用于评估不同模型的性能,推动了对话系统领域的技术进步。这些工作不仅提升了模型的实用性,也为未来的研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作