wisenut-nlp-team/alpaca_cleaned_multi_sh

Name: wisenut-nlp-team/alpaca_cleaned_multi_sh
Creator: wisenut-nlp-team
Published: 2024-06-20 02:03:16
License: 暂无描述

Hugging Face2024-06-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/wisenut-nlp-team/alpaca_cleaned_multi_sh

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个版本，每个版本由不同的数据源组成，包括alpaca cleaned数据、rag数据、qa_calc数据等。数据集涉及多种语言，如韩语、中文、日语和英语。每个数据样本包含三个特征：instruction（指令）、input（输入）和output（输出），均为字符串类型。不同版本的数据集在数据量和组成上有所不同。

This dataset contains multiple versions, each composed of different data sources including alpaca cleaned data, rag data, qa_calc data, etc. The dataset involves multiple languages such as Korean, Chinese, Japanese, and English. Each data sample includes three features: instruction, input, and output, all of which are string types. Different versions of the dataset vary in data volume and composition.

提供机构：

wisenut-nlp-team

原始信息汇总

数据集版本概述

当前版本：v7-1

各版本数据集详情：

v1: 包含 alpaca cleaned (한,중,일,영) 超过200,000条数据，rag (b-b, dacon, financial) 300条数据，总计使用1,280个数据（80 step）。
v2: 在v1基础上增加 qa_calc (추론) 300条数据，总计使用1,280个数据（80 step）。
v3: 在v2基础上增加 default fallback 200条数据，总计使用1,280个数据（80 step）。
v4: 包含 alpaca cleaned (영) 200条数据，alpaca cleaned (한) 50条数据，rag (b-b) 90条数据，qa_calc (추론) 60条数据，总计使用400个数据（24 step）。
v5: 包含 alpaca cleaned (영) 700条数据，alpaca cleaned (한) 85条数据，rag (b-b) 93条数据，rag (dacon) 110条数据，qa (h-i) 200条数据，qa_calc (추론) 90条数据，总计使用1,278个数据（100 step）。
v6: 包含 rag (b-b) 93条数据，rag (dacon) 110条数据，qa (h-i) 392条数据，qa_calc (추론) 120条数据，总计使用715个数据（44 step）。
v7: 包含 alpaca cleaned (영) 100条数据，alpaca cleaned (한) 100条数据，rag (b-b) 93条数据，qa_calc (추론) 120条数据，总计使用413个数据（26 step）。
v7-1: 包含 alpaca cleaned (영) 100条数据，qa (h-i) 100条数据，rag (b-b) 93条数据，qa_calc (추론) 120条数据，总计使用413个数据（26 step）。
v8: 包含 alpaca cleaned (영) 200条数据，alpaca cleaned (한) 100条数据，rag (b-b) 93条数据，qa_calc (추론) 120条数据，KMMLU_EASY (QA) 450条数据，总计使用963个数据（60 step）。
v9: 包含 alpaca cleaned (영) 100条数据，math_en (MetaMath) (영) 100条数据，rag (b-b) 93条数据，qa_calc (추론) 120条数据，qa (h-i) 100条数据，总计使用513个数据（32 step）。
v10: 包含 alpaca cleaned (영) 200条数据，math_en (MetaMath) (영) 100条数据，rag (b-b) 93条数据，qa_calc (추론) 120条数据，qa (h-i) 100条数据，总计使用613个数据（38 step）。

搜集汇总

数据集介绍

构建方式

在指令微调数据集构建领域，多语言数据融合与质量清洗是提升模型泛化能力的关键路径。该数据集以Alpaca Cleaned为基础，通过迭代优化策略逐步整合多元语料资源。其构建过程历经多个版本演进，核心逻辑在于平衡语言覆盖度与任务多样性：初始版本融合了韩、中、日、英四语种的清洗数据，并逐步引入RAG（检索增强生成）场景数据（如b-b、dacon、financial）、推理型QA数据（qa_calc）以及数学推理语料（MetaMath）。每个版本通过控制步长（Step）与数据量（Data）的配比实现精细调校，最终版本v10整合了英语Alpaca、英语数学推理、RAG及QA数据，形成总量613条的多任务混合样本集。

特点

该数据集展现出鲜明的多维度特征。首先，语言覆盖呈现英语主导、韩语补充的格局，其中韩语数据通过直接翻译策略确保语义保真度，有效弥补了非英语指令数据的稀缺性。其次，任务类型高度复合，涵盖基础指令遵循（Alpaca）、知识检索增强（RAG）、数学推理（MetaMath）及逻辑问答（qa_calc）四大模块，这种异构任务混合设计有助于模型在单一训练周期内同时习得指令理解、知识调用与推理能力。此外，数据集采用动态版本管理机制，通过逐步替换低效数据源（如逐步淘汰中文与日语样本）来优化数据效能，体现了以实验驱动的数据筛选理念。

使用方法

该数据集适用于监督式微调（SFT）场景，可直接加载至HuggingFace Transformers框架中训练。使用时需注意数据格式的标准化：每条样本包含instruction、input与output三个字段，其中input字段可为空字符串以适配无输入指令任务。推荐采用流式加载方式处理多语言混合数据，并在tokenization阶段对非英语字符进行特殊编码处理。由于数据量较小（约600条），建议搭配LoRA等参数高效微调方法，以避免过拟合。训练时可设置混合比例权重，对RAG与推理类样本赋予更高采样概率，以强化模型在复杂推理任务上的表现。

背景与挑战

背景概述

在大型语言模型快速演进的浪潮中，指令微调数据集成为提升模型对齐能力与泛化性能的关键基石。由Wisenut NLP团队构建的alpaca_cleaned_multi_sh数据集，诞生于2023年至2024年间，旨在突破单语言指令数据的局限，构建面向韩、中、日、英等多语言场景的高质量微调资源。该数据集以Stanford Alpaca的清洗版本为基础，融合了检索增强生成（RAG）数据、推理问答（qa_calc）以及领域特定知识，如金融与竞赛数据，形成了覆盖多任务、多领域的复合型语料库。其迭代版本从v1至v10，逐步引入数学推理（MetaMath）、KMMLU评估集等元素，体现了对模型推理能力与知识广度的持续追求。这一数据集为多语言指令微调提供了重要参考，推动了非英语环境下大模型实用性的提升。

当前挑战

该数据集面临的核心挑战首先在于多语言数据的质量与一致性控制，尤其是机器翻译引入的语义偏差与噪声，如韩语直接翻译版本可能丢失原指令的细微逻辑。其次，指令微调领域普遍存在的任务覆盖不均衡问题在此数据集中更为突出，RAG与推理数据的比例随版本剧烈波动，可能导致模型在特定任务上过拟合或泛化不足。构建过程中，数据来源的异构性——包括清洗后的Alpaca、公开竞赛数据及自建问答对——增加了格式统一与去重的难度，且部分版本数据量仅数百条，难以支撑大规模模型的稳定训练。此外，缺乏对模型输出安全性与偏见的系统性评估，使得数据集在真实部署场景中的鲁棒性成疑。

常用场景

经典使用场景

在自然语言处理与指令微调领域，wisenut-nlp-team/alpaca_cleaned_multi_sh 数据集被广泛用于多语言大语言模型的监督微调。其经典使用场景在于构建涵盖韩、中、日、英等多种语言的指令-输入-输出三元组，通过混合清洗后的Alpaca数据、检索增强生成样本、数学推理问答及领域特定知识片段，实现模型对多语种指令遵循能力与跨文化语义理解的协同提升。研究者通常利用该数据集的不同版本（如v7-2）进行少样本或中等规模微调，以验证模型在多语言环境下的泛化性能与鲁棒性。

解决学术问题

该数据集系统性地解决了多语言指令微调中数据稀缺性与领域覆盖不足的学术难题。通过整合清洗后的Alpaca多语言子集、金融与竞赛领域的RAG样本、数学计算推理题及知识问答，突破了单一语言或单一任务微调导致的模型偏见瓶颈。其意义在于为低资源语言（如韩语）的指令跟随能力提供了高质量对齐数据，显著推动了跨语言模型在零样本迁移、复杂推理与事实性知识检索等研究方向的发展，成为评估多语言LLM微调策略有效性的重要基准。

衍生相关工作

基于该数据集衍生出一系列经典工作，包括多语言指令微调策略的比较研究、混合数据配比优化方法以及跨语言模型对齐技术。例如，研究者通过分析不同版本（如v7-2与v10）中数学数据与RAG样本的配比，提出了动态数据权重调整框架以提升推理能力。此外，该数据集还催生了针对韩语-英语对译质量的自监督清洗算法，以及结合KMMLU评估集的领域自适应微调范式，这些工作共同深化了对多语言微调中数据组成与模型性能之间复杂关系的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集