Tengentoppa-sft-v1.0

Hugging Face2024-11-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/DeL-TaiseiOzaki/Tengentoppa-sft-v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由16个日语指令跟随数据集整合而成的大规模监督学习数据集。数据集包含多种任务和对话形式，数据格式统一为JSON，每个数据点的结构包括指令、输入（可选）和输出。数据集的创建代码在GitHub上公开，包含17个子数据集，每个子数据集都有其特定的用途和来源。使用时需要注意各源数据集的许可证，并确保适当引用。

创建时间：

2024-11-24

原始信息汇总

Tengentoppa corpus for sft (Combined Japanese Instruction Dataset)

概要

このデータセットは、日本語の instruction-following データセット16個を統合して作成された大規模な教師あり学習用データセットです。様々なタスクや対話形式を含む多様なデータソースから構成されています。

データセット構成

基本情報

フォーマット: JSON
各データポイントの構造: json { "instruction": "指示/質問文", "input": "追加の文脈や入力（オプション）", "output": "応答/回答文" }

含まれるデータセット

Hachi-Alpaca_newans (GENIAC-Team-Ozaki/Hachi-Alpaca_newans)
Chatbot Arena Japanese Dataset for Karakuri LM 8x7B Chat v0.1 AWQ (GENIAC-Team-Ozaki/chatbot-arena-ja-karakuri-lm-8x7b-chat-v0.1-awq)
WikiHow NFQA Japanese Cleaned Dataset (GENIAC-Team-Ozaki/WikiHowNFQA-ja_cleaned)
Evolutionary Alpaca Generation 3 500 Cleaned Dataset (GENIAC-Team-Ozaki/Evol-Alpaca-gen3-500_cleaned)
Open Assistant 33k Japanese Reformatted Dataset (GENIAC-Team-Ozaki/oasst2-33k-ja_reformatted)
SFT Dataset For Self-Taught Evaluators Iteration 1 (Aratako/SFT-Dataset-For-Self-Taught-Evaluators-iter1)
Japanese Debate Argument Instruction Dataset (GENIAC-Team-Ozaki/debate_argument_instruction_dataset_ja)
Japanese Helpful-Harmless RLHF 49k Dataset (fujiki/japanese_hh-rlhf-49k)
Japanese Government FAQs 22k Dataset (GENIAC-Team-Ozaki/JaGovFaqs-22k)
Evolutionary Helpful-Harmless RLHF Generation 3 1k Cleaned Dataset (GENIAC-Team-Ozaki/Evol-hh-rlhf-gen3-1k_cleaned)
Magpie Qwen 2.5 32B Reasoning 100k Dataset (DeL-TaiseiOzaki/magpie-qwen2.5-32b-reasoning-100k)
Japanese Reasoning Finetuning Dataset (DeL-TaiseiOzaki/reasoning-finetuning-ja)
Magpie LLM Japanese 3.13B 20k Dataset (DeL-TaiseiOzaki/magpie-llm-jp-3-13b-20k)
Magpie SFT Version 1.0 Dataset (llm-jp/magpie-sft-v1.0)
Aya Japanese Nemotron DPO Masked Dataset (weblab-GENIAC/aya-ja-nemotron-dpo-masked)
Open Platypus Japanese Masked Dataset (weblab-GENIAC/Open-Platypus-Japanese-masked)
Synthesis sft data by mixtral-8×22B (hatakeyama-llm-team/AutoGeneratedJapaneseQA-CC)

データ形式の統一化

全てのデータセットは共通の形式（instruction/input/output）に統一されています
input フィールドが元データにない場合は null として処理
会話形式のデータは最初のユーザーメッセージを instruction として扱い、後続のメッセージがある場合は input として統合

利用上の注意

各ソースデータセットのライセンスを確認し、適切に引用してください
データの品質は元のデータセットに依存します
一部のデータセットではマスク処理が施されている場合があります
会話形式から変換されたデータは、文脈の一部が失われている可能性があります

引用

このデータセットを使用する場合は、上記の全てのソースデータセットを適切に引用してください。各データセットの詳細な引用情報については、Hugging Face上の各データセットのページを参照してください。

更新履歴

2024年11月: 初版リリース
- 17個のデータセットを統合
- 共通フォーマットへの変換処理を実装

搜集汇总

数据集介绍

构建方式

Tengentoppa-sft-v1.0数据集是通过整合16个不同的日语指令跟随数据集构建而成。这些数据集涵盖了多种任务和对话形式，经过统一的格式转换，最终形成一个大规模的监督学习数据集。每个数据点均以JSON格式存储，包含instruction、input和output三个字段，确保数据结构的一致性。数据集构建过程中，原始数据中的缺失字段被标记为null，而对话形式的数据则通过将初始用户消息作为instruction，后续消息作为input进行整合。

特点

Tengentoppa-sft-v1.0数据集的特点在于其多样性和广泛性。它整合了来自多个领域的日语指令数据，包括问答、对话、推理等任务，覆盖了丰富的语言场景。数据集中的每个数据点均经过标准化处理，确保格式统一，便于模型训练。此外，部分数据集经过掩码处理，以保护敏感信息或适应特定任务需求。这种多样化的数据来源和统一的处理方式，使得该数据集在日语自然语言处理任务中具有较高的实用价值。

使用方法

使用Tengentoppa-sft-v1.0数据集时，首先需确保遵守各原始数据集的许可协议，并在引用时注明来源。数据集以JSON格式提供，可直接加载至机器学习框架中进行模型训练。由于数据集已统一为instruction/input/output格式，用户可根据具体任务需求，灵活调整输入输出结构。需要注意的是，部分数据可能因掩码处理或对话转换而丢失部分上下文信息，因此在使用时应结合具体任务进行适当的数据预处理和验证。

背景与挑战

背景概述

Tengentoppa-sft-v1.0数据集是一个综合了16个日语指令跟随数据集的大规模监督学习数据集，由GENIAC-Team-Ozaki等研究团队于2024年11月首次发布。该数据集旨在通过整合多样化的任务和对话形式，提升日语自然语言处理模型的指令理解和执行能力。其核心研究问题在于如何有效地将不同来源的日语指令数据进行统一和优化，以支持更广泛的应用场景。该数据集的发布为日语自然语言处理领域提供了丰富的训练资源，推动了相关技术的发展和应用。

当前挑战

Tengentoppa-sft-v1.0数据集在构建过程中面临多重挑战。首先，数据来源的多样性和格式不统一增加了数据整合的复杂性，研究人员需设计高效的转换算法以确保数据格式的一致性。其次，部分数据集经过掩码处理或存在上下文缺失问题，可能影响模型训练的完整性和准确性。此外，数据质量的差异也对模型的泛化能力提出了更高要求。在应用层面，如何确保模型能够准确理解和执行多样化的日语指令，仍是该数据集解决的核心领域问题。

常用场景

经典使用场景

Tengentoppa-sft-v1.0数据集在自然语言处理领域中的经典使用场景主要集中在对日语指令遵循任务的研究与开发。该数据集通过整合多个日语指令数据集，为研究者提供了一个统一的平台，用于训练和评估模型在复杂指令理解和生成任务中的表现。其多样化的数据来源涵盖了从问答系统到对话生成等多种任务，使得该数据集成为日语自然语言处理研究中的重要资源。

实际应用

在实际应用中，Tengentoppa-sft-v1.0数据集被广泛用于开发智能客服系统、虚拟助手以及教育领域的自动问答系统。其丰富的指令和对话数据使得模型能够更好地理解用户需求，并提供准确的响应。此外，该数据集还被用于开发多语言模型，提升模型在日语环境下的表现，为跨文化交流和商业应用提供了技术支持。

衍生相关工作

Tengentoppa-sft-v1.0数据集的发布催生了一系列相关研究工作，特别是在日语指令遵循任务和对话生成领域。基于该数据集，研究者开发了多个高性能的日语自然语言处理模型，如Karakuri LM和Magpie系列模型。这些模型在多个基准测试中表现出色，推动了日语自然语言处理技术的发展，并为后续研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集