saillab/alpaca_arabic_taco

Name: saillab/alpaca_arabic_taco
Creator: saillab
Published: 2024-09-20 22:08:10
License: 暂无描述

Hugging Face2024-09-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/saillab/alpaca_arabic_taco

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ar pretty_name: Arabic alpaca-52k size_categories: - 100K<n<1M --- This repository contains the dataset used for the TaCo paper. The dataset follows the style outlined in the TaCo paper, as follows: ``` { "instruction": "instruction in xx", "input": "input in xx", "output": "Instruction in English: instruction in en , Response in English: response in en , Response in xx: response in xx " } ``` Please refer to the paper for more details: [OpenReview](https://openreview.net/forum?id=02MLWBj8HP) If you have used our dataset, please cite it as follows: **Citation** ``` @inproceedings{upadhayay2024taco, title={TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in {LLM}s through Translation-Assisted Chain-of-Thought Processes}, author={Bibek Upadhayay and Vahid Behzadan}, booktitle={5th Workshop on practical ML for limited/low resource settings, ICLR}, year={2024}, url={https://openreview.net/forum?id=02MLWBj8HP} } ``` The original dataset [(Alpaca-52K)](https://github.com/tatsu-lab/stanford_alpaca?tab=readme-ov-file#data-release) was translated using Google Translate. **Copyright and Intended Use** This dataset has been released under CC BY-NC, intended for academic and research purposes only. Please review the licenses and terms and conditions of Alpaca-52K, Dolly-15K, and Google Cloud Translation before using this dataset for any purpose other than research.

--- 语言： - 阿拉伯语（ar）数据集展示名：Arabic Alpaca-52K 规模类别： - 10万<数据量<100万 --- 本仓库包含用于TaCo论文的数据集。该数据集遵循TaCo论文中规定的格式，具体如下： { "instruction": "xx语言的指令内容", "input": "xx语言的输入内容", "output": "英语指令：英文指令内容，英语回复：英文回复内容， xx语言回复：xx语言回复内容" } 如需了解更多细节，请参阅该论文：[OpenReview](https://openreview.net/forum?id=02MLWBj8HP) 若您使用了本数据集，请按以下方式引用： **引用** @inproceedings{upadhayay2024taco, title={TaCo: 通过翻译辅助思维链流程增强大语言模型（Large Language Model，LLM）中的低资源语言跨语言迁移能力}, author={Bibek Upadhayay and Vahid Behzadan}, booktitle={第5届面向低资源场景的实用机器学习研讨会（ICLR)}, year={2024}, url={https://openreview.net/forum?id=02MLWBj8HP} } 原始数据集[(Alpaca-52K)](https://github.com/tatsu-lab/stanford_alpaca?tab=readme-ov-file#data-release)通过谷歌翻译（Google Translate）完成翻译。 **版权与使用意向** 本数据集采用CC BY-NC协议发布，仅用于学术与研究用途。若将本数据集用于研究以外的其他用途，请先查阅Alpaca-52K、Dolly-15K以及谷歌云翻译（Google Cloud Translation）的许可协议与条款细则。

提供机构：

saillab

原始信息汇总

数据集概述

数据集特征

instruction：数据类型为字符串。
input：数据类型为字符串。
output：数据类型为字符串。
id：数据类型为字符串。
text：数据类型为字符串。

数据集分割

训练集：包含49601个样本，总大小为208391071.1910906字节。
测试集：包含12401个样本，总大小为52100918.80890939字节。

数据集大小

下载大小：125420567字节。
数据集总大小：260491990.0字节。

数据文件配置

配置名称：default
训练数据文件路径：data/train-*
测试数据文件路径：data/test-*

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理领域，高质量双语数据集的构建是推动模型泛化能力的关键。saillab/alpaca_arabic_taco数据集以著名的Alpaca-52K英语指令数据集为基础，通过谷歌翻译服务将其内容系统性地翻译为阿拉伯语。该过程严格遵循TaCo论文中提出的结构化格式，确保每条数据均包含指令、输入及输出三个部分，其中输出部分同时提供英语与阿拉伯语的双语响应，从而构建了一个适用于跨语言迁移学习的阿拉伯语指令遵循数据集。

特点

该数据集的核心特点在于其独特的双语对齐结构，不仅提供了阿拉伯语的指令与响应，还保留了原始的英语对应内容，为研究跨语言思维链过程提供了直接对比的语料。数据规模介于十万到百万条之间，属于中等规模，专为低资源语言场景设计，旨在通过翻译辅助机制增强大语言模型在阿拉伯语任务上的迁移性能。其格式统一、标注清晰，严格遵循学术使用许可，专注于支持机器翻译、指令微调及跨语言理解等研究方向的探索。

使用方法

研究人员可利用该数据集进行跨语言指令微调实验，通过对比双语响应探究翻译在思维链传递中的作用。典型应用包括：加载数据集后，提取阿拉伯语指令与输入作为模型提示，同时参考英语响应作为监督信号或评估基准；也可直接利用其结构化输出训练序列到序列模型，提升模型在阿拉伯语任务上的遵循与生成能力。使用前需仔细阅读相关的CC BY-NC许可协议，确保符合学术与研究用途，并适当引用原始论文与数据来源。

背景与挑战

背景概述

在自然语言处理领域，跨语言迁移学习已成为提升低资源语言模型性能的关键研究方向。saillab/alpaca_arabic_taco数据集由研究人员Bibek Upadhayay和Vahid Behzadan于2024年构建，其核心目标是通过翻译辅助的思维链过程，增强大型语言模型在阿拉伯语等低资源语言上的跨语言迁移能力。该数据集基于Alpaca-52K，采用Google Translate进行翻译，遵循TaCo论文提出的结构化格式，旨在为学术研究提供高质量的阿拉伯语指令微调数据，推动多语言人工智能系统的发展。

当前挑战

该数据集致力于解决低资源语言在指令微调任务中的跨语言迁移挑战，具体包括语言差异导致的语义保真度下降、文化语境适配困难以及翻译引入的噪声问题。在构建过程中，研究人员面临数据对齐的复杂性，需确保原始英语指令与阿拉伯语翻译在逻辑和意图上保持一致；同时，翻译工具的局限性可能影响输出质量，而版权与使用许可的合规性也增加了数据处理的难度。这些挑战共同制约了数据集在真实场景中的泛化与应用效能。

常用场景

经典使用场景

在自然语言处理领域，跨语言迁移学习已成为提升低资源语言模型性能的关键路径。saillab/alpaca_arabic_taco数据集通过翻译辅助的思维链过程，为阿拉伯语等低资源语言提供了高质量的指令微调数据。该数据集以Alpaca-52K为基础，经由Google Translate翻译并结构化处理，构建了包含指令、输入和双语输出的样本，经典使用场景集中于训练和评估大语言模型在阿拉伯语任务上的指令遵循与生成能力，尤其在少样本或零样本跨语言迁移设置中，为模型适应阿拉伯语语境提供了标准化基准。

实际应用

在实际应用层面，saillab/alpaca_arabic_taco数据集能够支持开发面向阿拉伯语用户的智能助手与教育工具。基于该数据集训练的模型可应用于客户服务自动化、内容本地化生成以及跨语言信息检索等场景，提升阿拉伯语地区数字服务的可及性与质量。此外，在全球化企业或跨国组织中，该数据集有助于构建多语言交互系统，促进阿拉伯语与其他语言之间的无缝沟通，为教育、商务及公共服务领域的语言技术落地提供关键数据支撑。

衍生相关工作

围绕该数据集衍生的经典工作主要聚焦于跨语言迁移与低资源语言模型优化。例如，TaCo论文提出的翻译辅助思维链框架已成为低资源语言指令微调的重要参考，启发了后续研究如多语言指令数据增强、混合语言训练策略等方向。相关扩展工作进一步探索了在更多低资源语言上应用类似范式，或结合对抗训练、元学习等方法提升迁移效率，这些研究共同丰富了跨语言自然语言处理的技术图谱，推动了该领域向更包容、均衡的语言支持发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集