Magpie-Tanuki-8B-annotated-96k

Hugging Face2024-10-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Aratako/Magpie-Tanuki-8B-annotated-96k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于Magpie方法应用于weblab-GENIAC/Tanuki-8B-dpo-v1.0模型创建的，并使用cyberagent/calm3-22b-chat模型对instruction进行难度、质量和类别标注。数据集包含多个特征，如id、messages、instruction、output、intent、knowledge、difficulty、explanation、input_quality、primary_tag和other_tags。训练集包含96353个样本，总大小为729878359字节。数据集主要用于文本生成任务，语言为日语，样本数量在10K到100K之间。

创建时间：

2024-10-23

原始信息汇总

Magpie-Tanuki-8B-annotated-96k 数据集概述

数据集信息

特征

id: 整数类型
messages: 列表类型
- content: 字符串类型
- role: 字符串类型
instruction: 字符串类型
output: 字符串类型
intent: 字符串类型
knowledge: 字符串类型
difficulty: 字符串类型
explanation: 字符串类型
input_quality: 字符串类型
primary_tag: 字符串类型
other_tags: 字符串序列类型

数据分割

train: 包含96,353个样本，总大小为729,878,359字节

数据集大小

下载大小: 375,508,003字节
数据集大小: 729,878,359字节

配置

config_name: default
data_files:
- split: train
- path: data/train-*

许可证

apache-2.0

任务类别

text-generation

语言

数据集规模

10K<n<100K

数据集描述

该数据集是通过对Aratako/Magpie-Tanuki-8B-97k应用cyberagent/calm3-22b-chat进行标注，标注内容包括难度、质量和类别。

标注提示

难度标注

指示

首先，确定用户的意图，然后根据用户查询的内容标注难度级别。

用户查询

{input}

输出格式

根据用户查询，首先确定用户意图，并明确解决问题所需的知识。然后，在以下json格式中，用very easy、easy、medium、hard、very hard之一评估难度级别：

{
"intent": "用户在寻求[....]", "knowledge": "解决这个问题，模型需要知道[....]", "difficulty": "[very easy/easy/medium/hard/very hard]" }

质量标注

指示

评估LLM接收到的用户查询的质量，基于其清晰度、具体性和一致性。

评估尺度如下：

very poor: 查询不清晰，模糊或不一致。缺少回答所需的重要信息或上下文。
poor: 查询有些不清晰，缺少重要细节。回答需要大幅澄清。
average: 查询相当清晰和具体。但为了完全理解并回答，可能需要额外信息。
good: 查询清晰、具体且几乎适当构成。提供了理解用户意图并回答的足够上下文。
excellent: 查询非常清晰、具体且适当表达。包含提供全面回答所需的所有信息和上下文。

用户查询

{input}

输出格式

根据用户查询，首先写出查询的优缺点并进行评估。然后，在以下格式中，总结评估说明和从very poor到excellent的评估：

{ "explanation": "[评估说明]", "input_quality": "[very poor/poor/average/good/excellent]" }

类别标注

指示

对LLM接收到的用户查询进行分类，并标注任务标签。

用户查询

{input}

用户输入的标签

对用户查询进行标签标注。分析用户查询，并从以下列表中选择最相关的任务标签：

all_task_tags = [ "Information seeking", # 用户寻求各种主题的特定信息或事实的查询。 "Reasoning", # 需要逻辑思考、问题解决或复杂想法处理的查询。 "Planning", # 用户希望帮助制定活动或项目的计划或策略。 "Editing", # 包含一般文章编辑、改写、校对等任务的查询。 "Coding & Debugging", # 用户寻求编写、审查或修复程序代码的帮助。 "Math", # 与数学概念、问题、计算相关的查询。 "Role playing", # 用户要求LLM采用角色或角色的场景。 "Data analysis", # 包含数据解释、统计或分析任务的请求。 "Creative writing", # 用户寻求创作故事、诗歌、小说等创意文章的帮助。 "Advice seeking", # 用户寻求个人或专业问题的建议或指导。 "Brainstorming", # 包含生成想法、创造性思考或探索可能性的查询。 "Others" # 不属于上述类别或具有其他性质的查询。 ]

输出格式:

首先，逐步分析用户查询与各标签的相关性，选择最相关的主要标签（primary tag）。如果有其他相关标签，添加到other tags列表中。注意不要使用上述标签列表以外的标签。然后，在以下json格式中输出标签。primary_tag是字符串，other_tags是列表：

{ "primary_tag": "<primary tag>", "other_tags": ["<tag 1>", "<tag 2>", ... ] }

搜集汇总

数据集介绍

构建方式

Magpie-Tanuki-8B-annotated-96k数据集的构建基于Magpie方法，并结合了weblab-GENIAC/Tanuki-8B-dpo-v1.0模型的应用。通过对Aratako/Magpie-Tanuki-8B-97k数据集进行进一步处理，使用cyberagent/calm3-22b-chat模型对指令进行难度、质量和类别的标注。这一过程涉及对用户查询的意图识别、知识需求分析以及难度等级的评估，确保了数据集的多样性和复杂性。

特点

该数据集的特点在于其丰富的标注信息，涵盖了指令、输出、意图、知识、难度、解释、输入质量、主要标签及其他标签等多个维度。每个数据点都经过细致的分析，确保其在不同任务场景下的适用性。数据集的语言为日语，适用于文本生成任务，且规模适中，包含96,353个训练样本，适合用于模型训练和评估。

使用方法

Magpie-Tanuki-8B-annotated-96k数据集的使用方法主要包括加载数据集、解析标注信息以及应用于模型训练和评估。用户可以通过Hugging Face平台直接下载数据集，并利用其丰富的标注信息进行模型微调或任务特定训练。数据集的标注信息可以帮助用户更好地理解模型在处理不同难度和类别任务时的表现，从而优化模型性能。

背景与挑战

背景概述

Magpie-Tanuki-8B-annotated-96k数据集是基于Magpie方法对Tanuki-8B-dpo-v1.0模型进行扩展和优化的产物，由Aratako团队创建。该数据集通过使用calm3-22b-chat模型对指令进行详细注释，涵盖了难度、质量和类别等多个维度。其核心研究问题在于如何通过精细的注释提升大规模语言模型在特定任务上的表现，尤其是在日语文本生成领域。该数据集的创建标志着在自然语言处理领域中对多维度注释和任务分类的进一步探索，为后续研究提供了丰富的实验数据。

当前挑战

Magpie-Tanuki-8B-annotated-96k数据集在构建过程中面临多重挑战。首先，如何准确评估指令的难度和质量是一个复杂的问题，需要综合考虑文本的明确性、具体性和一致性。其次，任务分类的精确性要求对用户意图进行深入分析，以确保标签的准确性和相关性。此外，数据集的规模较大，注释过程需要高效且一致的标注策略，这对标注工具和流程的设计提出了较高要求。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的标准。

常用场景

经典使用场景

Magpie-Tanuki-8B-annotated-96k数据集在自然语言处理领域中被广泛应用于文本生成任务，特别是在日语语境下的指令理解和响应生成。该数据集通过详细的注释，包括指令的难度、质量和类别，为研究人员提供了丰富的实验素材，用于训练和评估大语言模型在复杂任务中的表现。

衍生相关工作

基于Magpie-Tanuki-8B-annotated-96k数据集，研究人员开发了一系列改进的文本生成模型和评估方法。这些工作不仅提升了模型在日语语境下的表现，还为其他语言和任务提供了可借鉴的经验和方法，推动了自然语言处理领域的整体进步。

数据集最近研究