five

Magpie-Llama-3.1-8B-Instruct-Filtered-translated-1M

收藏
Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/HiTZ/Magpie-Llama-3.1-8B-Instruct-Filtered-translated-1M
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个使用HiTZ/Llama-3.1-8B模型自动翻译成巴斯克语的数据集。数据集包含了经过特定过滤标准筛选的高质量对话示例。过滤标准包括单词重复不超过100次、输入质量为好、优秀或平均、指令奖励大于-10、指令不以冒号结尾、对话ID唯一性以及响应无重复。此外,数据集还提供了用于不同场景(如一般对话、代码问题、数学问题、算术操作和机器翻译)的系统提示模板。

This is a dataset automatically translated into Basque using the HiTZ/Llama-3.1-8B model. The dataset contains high-quality dialogue examples filtered against specific criteria. These filtering criteria include: no more than 100 word repetitions, input quality rated as good, excellent or average, instruction reward values greater than -10, instructions not ending with a colon, unique dialogue IDs, and non-repetitive responses. Additionally, the dataset provides system prompt templates for various scenarios such as general conversation, code-related questions, mathematical problems, arithmetic operations, and machine translation.
提供机构:
HiTZ zentroa
创建时间:
2025-05-23
原始信息汇总

数据集概述

基本信息

  • 语言: 巴斯克语 (eu)
  • 许可证: Apache-2.0
  • 标签: synthetic

数据来源

过滤标准

python min_repetition = 100

def test_no_repetition(text: str): word_count = Counter(text.split()) return all(count <= min_repetition for count in word_count.values())

def high_quality_filter(example): return ( example["input_quality"] in ["good", "excellent", "average"] and example["instruct_reward"] > -10 and not example["instruction"].endswith(":") and ( example["min_similar_conversation_id"] is None or example["conversation_id"] == example["min_similar_conversation_id"] ) and test_no_repetition(example["response"]) )

系统提示

通用提示

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023 Today Date: 26 Jul 2024

<|eot_id|><|start_header_id|>user<|end_header_id|>

代码提示

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an AI assistant designed to provide helpful, step-by-step guidance on coding problems. The user will ask you a wide range of coding questions. Your purpose is to assist users in understanding coding concepts, working through code, and arriving at the correct solutions.<|eot_id|><|start_header_id|>user<|end_header_id|>

数学提示

"<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an AI assistant designed to provide helpful, step-by-step guidance on solving math problems. The user will ask you a wide range of complex mathematical questions. Your purpose is to assist users in understanding mathematical concepts, working through equations, and arriving at the correct solutions.<|eot_id|><|start_header_id|>user<|end_header_id|>

算术提示

|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an AI assistant designed to provide helpful, step-by-step guidance on solving complex arithmetic operations. The user will provide you with an arithmetic operation or a concatenation of multiple arithmetic operations. Your purpose is to assist users in computing the results of the arithmetic operation exlaining the process step by step.<|eot_id|><|start_header_id|>user<|end_header_id|>

机器翻译提示

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an AI assistant specifically designed to provide accurate and contextually appropriate translations. Users will ask you to translate a large text between various languages. Your purpose is to translate the text, maintaining the original context and nuances.<|eot_id|><|start_header_id|>user<|end_header_id|>

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过先进的机器翻译技术构建,原始英文数据集由HiTZ团队开发的Llama-3.1-8B模型生成,随后采用同一模型框架将其自动翻译为巴斯克语版本。在数据处理环节,研发团队实施了严格的质量过滤机制,包括排除重复词汇超过100次的低质量文本、筛选输入质量评级为良好及以上的样本,同时确保指令奖励分数高于阈值且响应内容具有语义多样性。系统提示模板的设计针对不同领域任务进行了专业化定制,涵盖通用对话、编程指导、数学问题求解和机器翻译等多个应用场景。
特点
作为巴斯克语稀缺资源的重要补充,该数据集展现出显著的多领域覆盖特性,其内容横跨技术指导、学术问题解决和语言服务等专业维度。数据样本经过双重质量控制体系筛选,既保留了原始英文数据集的知识密度优势,又通过翻译模型实现了语言本土化转换。特别值得注意的是,该资源采用模块化系统提示设计,不同任务类型对应差异化的引导策略,这种结构化为后续模型微调提供了清晰的范式参考。数据集中指令-响应对的构建注重逻辑连贯性,避免了开放式结尾和无意义重复等常见数据缺陷。
使用方法
该数据集主要适用于巴斯克语大语言模型的监督式微调任务,使用者可通过HuggingFace平台直接加载预处理后的数据。在实际应用中,建议根据目标场景选择对应的系统提示模板,例如编程辅助任务应匹配代码专用引导语。研究人员可采用端到端方式直接微调模型,也可提取指令-响应对构建特定领域的训练集。需要注意的是,由于采用机器翻译生成,建议对关键任务数据进行人工校验。数据集中的质量标注字段为样本筛选提供了便利,用户可根据instruct_reward等指标实施二次过滤。对于多语言研究,该资源可与原始英文版本进行对比分析,探究翻译过程对指令跟随能力的影响。
背景与挑战
背景概述
Magpie-Llama-3.1-8B-Instruct-Filtered-translated-1M数据集是由HiTZ研究机构基于Llama-3.1-8B模型自动翻译构建的巴斯克语(Basque)指令数据集,其英文原版数据集发布于2023年12月。该数据集专注于多领域指令数据的跨语言迁移,涵盖编程、数学、算术及机器翻译等专业领域,采用严格的过滤机制确保数据质量。作为低资源语言处理的代表性工作,该数据集为巴斯克语这一孤立语言的NLP研究提供了重要资源,推动了小语种在大型语言模型中的应用探索。
当前挑战
该数据集面临双重核心挑战:在领域问题层面,需解决低资源语言机器翻译中的语义保真度问题,特别是巴斯克语作为孤立语言的复杂语法结构对指令准确性的影响;在构建过程层面,过滤机制的优化尤为关键,包括重复内容检测、指令质量评估以及跨语言对齐验证。系统提示词(system prompts)的领域适配性也直接影响生成数据的专业性,如何在保持多领域覆盖的同时避免语义漂移是持续改进的重点方向。
常用场景
经典使用场景
在自然语言处理领域,Magpie-Llama-3.1-8B-Instruct-Filtered-translated-1M数据集为研究者提供了一个高质量的巴斯克语指令数据集。该数据集通过先进的Llama-3.1-8B模型自动翻译生成,特别适用于低资源语言的指令微调研究。研究人员可以基于该数据集开展跨语言指令理解、多语言模型微调等实验,探索语言模型在非英语环境下的表现。
解决学术问题
该数据集有效缓解了巴斯克语等低资源语言在指令微调研究中的数据稀缺问题。通过严格的重复检测和质量过滤机制,确保了数据的多样性和可靠性,为研究低资源语言场景下的模型泛化能力、跨语言迁移学习等关键问题提供了重要支撑。其构建方法也为其他低资源语言的指令数据集创建提供了可借鉴的技术路线。
衍生相关工作
该数据集的构建方法启发了多个低资源语言处理的研究工作。基于类似的翻译-过滤流程,研究者们已开发出多个针对不同低资源语言的指令数据集。同时,该数据集也被用于评估多语言模型的跨语言迁移能力,推动了低资源语言处理领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作