Magpie-Tanuki-8B-annotated-96k
收藏Magpie-Tanuki-8B-annotated-96k 数据集概述
数据集信息
特征
- id: 整数类型
- messages: 列表类型
- content: 字符串类型
- role: 字符串类型
- instruction: 字符串类型
- output: 字符串类型
- intent: 字符串类型
- knowledge: 字符串类型
- difficulty: 字符串类型
- explanation: 字符串类型
- input_quality: 字符串类型
- primary_tag: 字符串类型
- other_tags: 字符串序列类型
数据分割
- train: 包含96,353个样本,总大小为729,878,359字节
数据集大小
- 下载大小: 375,508,003字节
- 数据集大小: 729,878,359字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
许可证
- apache-2.0
任务类别
- text-generation
语言
- ja
数据集规模
- 10K<n<100K
数据集描述
该数据集是通过对Aratako/Magpie-Tanuki-8B-97k应用cyberagent/calm3-22b-chat进行标注,标注内容包括难度、质量和类别。
标注提示
难度标注
指示
首先,确定用户的意图,然后根据用户查询的内容标注难度级别。
用户查询
{input}
输出格式
根据用户查询,首先确定用户意图,并明确解决问题所需的知识。
然后,在以下json格式中,用very easy、easy、medium、hard、very hard之一评估难度级别:
{
"intent": "用户在寻求[....]",
"knowledge": "解决这个问题,模型需要知道[....]",
"difficulty": "[very easy/easy/medium/hard/very hard]"
}
质量标注
指示
评估LLM接收到的用户查询的质量,基于其清晰度、具体性和一致性。
评估尺度如下:
- very poor: 查询不清晰,模糊或不一致。缺少回答所需的重要信息或上下文。
- poor: 查询有些不清晰,缺少重要细节。回答需要大幅澄清。
- average: 查询相当清晰和具体。但为了完全理解并回答,可能需要额外信息。
- good: 查询清晰、具体且几乎适当构成。提供了理解用户意图并回答的足够上下文。
- excellent: 查询非常清晰、具体且适当表达。包含提供全面回答所需的所有信息和上下文。
用户查询
{input}
输出格式
根据用户查询,首先写出查询的优缺点并进行评估。 然后,在以下格式中,总结评估说明和从very poor到excellent的评估:
{ "explanation": "[评估说明]", "input_quality": "[very poor/poor/average/good/excellent]" }
类别标注
指示
对LLM接收到的用户查询进行分类,并标注任务标签。
用户查询
{input}
用户输入的标签
对用户查询进行标签标注。分析用户查询,并从以下列表中选择最相关的任务标签:
all_task_tags = [ "Information seeking", # 用户寻求各种主题的特定信息或事实的查询。 "Reasoning", # 需要逻辑思考、问题解决或复杂想法处理的查询。 "Planning", # 用户希望帮助制定活动或项目的计划或策略。 "Editing", # 包含一般文章编辑、改写、校对等任务的查询。 "Coding & Debugging", # 用户寻求编写、审查或修复程序代码的帮助。 "Math", # 与数学概念、问题、计算相关的查询。 "Role playing", # 用户要求LLM采用角色或角色的场景。 "Data analysis", # 包含数据解释、统计或分析任务的请求。 "Creative writing", # 用户寻求创作故事、诗歌、小说等创意文章的帮助。 "Advice seeking", # 用户寻求个人或专业问题的建议或指导。 "Brainstorming", # 包含生成想法、创造性思考或探索可能性的查询。 "Others" # 不属于上述类别或具有其他性质的查询。 ]
输出格式:
首先,逐步分析用户查询与各标签的相关性,选择最相关的主要标签(primary tag)。如果有其他相关标签,添加到other tags列表中。注意不要使用上述标签列表以外的标签。 然后,在以下json格式中输出标签。primary_tag是字符串,other_tags是列表:
{ "primary_tag": "<primary tag>", "other_tags": ["<tag 1>", "<tag 2>", ... ] }




