saillab/alpaca_chinesetraditional_taco

Name: saillab/alpaca_chinesetraditional_taco
Creator: saillab
Published: 2024-09-20 22:21:08
License: 暂无描述

Hugging Face2024-09-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/saillab/alpaca_chinesetraditional_taco

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - zh pretty_name: Chinese Traditional alpaca-52k size_categories: - 100K<n<1M task_categories: - question-answering --- This repository contains the dataset used for the TaCo paper. The dataset follows the style outlined in the TaCo paper, as follows: ``` { "instruction": "instruction in xx", "input": "input in xx", "output": "Instruction in English: instruction in en , Response in English: response in en , Response in xx: response in xx " } ``` Please refer to the paper for more details: [OpenReview](https://openreview.net/forum?id=02MLWBj8HP) If you have used our dataset, please cite it as follows: **Citation** ``` @inproceedings{upadhayay2024taco, title={TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in {LLM}s through Translation-Assisted Chain-of-Thought Processes}, author={Bibek Upadhayay and Vahid Behzadan}, booktitle={5th Workshop on practical ML for limited/low resource settings, ICLR}, year={2024}, url={https://openreview.net/forum?id=02MLWBj8HP} } ``` The original dataset [(Alpaca-52K)](https://github.com/tatsu-lab/stanford_alpaca?tab=readme-ov-file#data-release) was translated using Google Translate. **Copyright and Intended Use** This dataset has been released under CC BY-NC, intended for academic and research purposes only. Please review the licenses and terms and conditions of Alpaca-52K, Dolly-15K, and Google Cloud Translation before using this dataset for any purpose other than research.

语言： - 简体中文（zh）数据集名称：繁体中文Alpaca-52K 数据规模分类： - 10万<样本量<100万任务分类： - 问答任务 --- 本仓库包含TaCo论文所使用的数据集。该数据集遵循TaCo论文中规定的格式，示例如下： { "instruction": "xx语言的指令", "input": "xx语言的输入", "output": "英文指令：英文原指令，英文回复：英文原回复， xx语言回复：xx语言原文回复" } 如需了解更多细节，请参阅该论文：[OpenReview](https://openreview.net/forum?id=02MLWBj8HP) 若您使用了本数据集，请按以下方式引用： **引用** @inproceedings{upadhayay2024taco, title={TaCo：借助翻译辅助思维链（Chain-of-Thought）流程提升大语言模型（LLM）中低资源语言的跨语言迁移能力}, author={Bibek Upadhayay and Vahid Behzadan}, booktitle={第五届有限/低资源场景下的实用机器学习研讨会，国际学习表征会议（ICLR)}, year={2024}, url={https://openreview.net/forum?id=02MLWBj8HP} } 原始数据集[(Alpaca-52K)](https://github.com/tatsu-lab/stanford_alpaca?tab=readme-ov-file#data-release)通过谷歌翻译（Google Translate）完成翻译。 **版权与使用意图** 本数据集采用CC BY-NC协议发布，仅可用于学术与研究用途。在将本数据集用于研究以外的任何用途前，请务必查阅Alpaca-52K、Dolly-15K以及谷歌云翻译（Google Cloud Translation）的许可协议与条款细则。

提供机构：

saillab

原始信息汇总

数据集概述

数据集特征

instruction：数据类型为字符串。
input：数据类型为字符串。
output：数据类型为字符串。
id：数据类型为字符串。
text：数据类型为字符串。

数据集分割

训练集：包含49601个样本，总大小为169440247.96090448字节。
测试集：包含12401个样本，总大小为42362624.03909551字节。

数据集大小

下载大小：110206046字节。
数据集总大小：211802872.0字节。

数据文件配置

默认配置：
- 训练集路径：data/train-*
- 测试集路径：data/test-*

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理领域，数据资源的丰富性对模型性能至关重要。saillab/alpaca_chinesetraditional_taco数据集的构建基于Alpaca-52K原始数据集，通过谷歌翻译工具将其内容系统性地转化为繁体中文。构建过程严格遵循TaCo论文中提出的格式规范，每条数据均包含指令、输入及输出三个字段，其中输出部分巧妙整合了英文指令与回应以及对应的中文翻译，旨在支持跨语言思维链的辅助学习。

特点

该数据集作为跨语言迁移学习的专用资源，其核心特点在于采用了翻译辅助的思维链结构。每条数据输出均以双语形式呈现，既保留了英文原句的语义逻辑，又提供了准确的中文翻译，从而为低资源语言环境下的模型训练提供了丰富的语言对比样本。数据集规模适中，涵盖问答任务类别，专门针对繁体中文语境设计，有助于提升模型在跨语言场景下的推理与生成能力。

使用方法

在学术研究与应用开发中，该数据集主要用于训练或微调大型语言模型，以增强其跨语言迁移性能。使用者可依据TaCo论文中描述的方法，将数据集中的指令、输入及双语输出作为训练样本，引导模型学习从英文到中文的思维链转换过程。需要注意的是，数据集遵循CC BY-NC许可，仅限学术与研究用途，使用前应仔细阅读原始数据集及翻译工具的相关许可条款，确保合规使用。

背景与挑战

背景概述

在自然语言处理领域，跨语言迁移学习已成为提升低资源语言模型性能的关键研究方向。saillab/alpaca_chinesetraditional_taco数据集于2024年由Bibek Upadhayay与Vahid Behzadan等研究人员构建，其核心研究问题聚焦于通过翻译辅助的思维链过程，增强大语言模型在低资源语言上的跨语言迁移能力。该数据集基于Alpaca-52K，采用谷歌翻译工具转化为繁体中文，旨在为中文自然语言理解与生成任务提供高质量的指令微调数据，推动多语言人工智能技术的发展。

当前挑战

该数据集致力于解决低资源语言在跨语言迁移中的核心挑战，包括语言表征的语义对齐困难、文化语境差异导致的翻译偏差，以及思维链过程在跨语言转换中的逻辑连贯性维护。在构建过程中，挑战主要体现在自动翻译工具可能引入的语法错误或语义失真，原始英文指令与中文响应之间的风格一致性保持，以及数据版权与使用许可的合规性管理，这些因素共同影响了数据集的可靠性与应用广度。

常用场景

经典使用场景

在跨语言自然语言处理领域，saillab/alpaca_chinesetraditional_taco数据集为研究者提供了一个宝贵的资源，其经典使用场景主要集中于低资源语言的指令微调与跨语言迁移学习。该数据集通过将英文Alpaca-52K指令数据翻译为繁体中文，构建了一个结构化的指令-输入-输出三元组集合，使得模型能够在繁体中文语境下理解和执行复杂任务。研究者常利用这一数据集训练或微调大型语言模型，以提升模型在中文任务上的泛化能力和推理准确性，尤其在资源有限的繁体中文场景中，它为模型提供了高质量的监督信号，促进了跨语言知识的高效转移。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，主要集中在跨语言迁移与低资源语言优化方向。例如，基于TaCo框架的扩展研究探索了更多语言对的翻译辅助思维链方法，提升了模型在东南亚语言等资源稀缺场景的表现。同时，该数据集启发了对多语言指令微调范式的改进，如结合对抗训练或元学习技术以增强模型鲁棒性。这些工作不仅深化了对跨语言转移机制的理解，也为后续多语言大模型的开发提供了重要的方法论参考。

数据集最近研究