Alpaca Chinese Dataset

github2024-04-26 更新2024-05-31 收录

下载链接：

https://github.com/open-chinese/alpaca-chinese-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包括中文和英文的混合数据集，方便双语微调，以及后续做持续的数据修正。原始的Alpaca英文数据集也存在不少的问题，个别的数学类的sample是错的，有少部分output字段需要修正，一些<noinput>的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上，翻译出对应的中文版本，中文版基本是原始sample的翻译，但是对于一些比如押韵类、时态类的一些instruction，直接翻译导致韵脚丢失，时态不一致等。需要对应的进行人工改写。

This dataset comprises a bilingual corpus in both Chinese and English, facilitating bilingual fine-tuning and subsequent continuous data refinement. The original Alpaca English dataset presents several issues, including incorrect samples in mathematical categories, some output fields requiring corrections, and misaligned <noinput> tags, among others. This dataset aims to amend and rectify these issues in the original dataset. Building upon these corrections, a corresponding Chinese version has been translated. While the Chinese version primarily translates the original samples, certain instructions involving rhymes or tenses necessitate manual adaptation to preserve the original's integrity, as direct translation may result in the loss of rhyme or tense consistency.

创建时间：

2023-08-19

原始信息汇总

数据集概述

数据集名称

Alpaca Chinese Dataset：中文指令微调数据集

更新记录

2024/04/22：增加Google翻译的Provider
2024/04/26：增加GPT Provider，用于翻译更多优质英文数据源为中文

当前状态

整体翻译已完成，质量约为85/100，适用于中文fine tuning，目标提升至98/100。

贡献修改方式

修改./data目录下的json文件，并通过运行python main.py自动更新至alpaca-chinese-52k.json。

数据集说明

包含中文和英文混合数据，用于双语微调及数据修正。
对原始英文数据集的问题进行修改和修正，包括数学样本错误、输出字段修正、标签对齐等。
中文版基于英文样本翻译，对直译导致的韵脚丢失、时态不一致等问题进行人工改写。

格式说明

数据集为json格式，每个样本包含6个字段：en_instruction, en_input, en_output（英文）和instruction, input, output（中文）。

文件说明

alpaca-chinese-52k.json：包含52k英文和中文数据全集
./data/alpaca_chinese_part.json*：分拆数据文件

修改说明

Case1：成语直译后需二次改写
Case2：修正错误的数学题样本
Case3：字数限定，确保句子符合要求
Case4：拆字，调整词汇以符合中文表达
Case5：本地化，替换英文社交网站名称为中文对应词汇

搜集汇总

数据集介绍

构建方式

Alpaca Chinese Dataset的构建过程严谨而细致，首先对原始的Alpaca英文数据集进行了全面的审查与修正，针对其中存在的数学错误、输出字段不准确以及标签不对齐等问题进行了逐一调整。随后，数据集被翻译成中文，并在此基础上进行了进一步的优化，特别是对于押韵类、时态类指令的翻译，确保了中文版本的准确性与自然性。此外，对于代码等特殊输出内容，数据集保持了其原始形式，未进行翻译处理。

特点

Alpaca Chinese Dataset的一个显著特点是其双语混合的结构，这不仅便于进行双语微调，也为后续的数据修正提供了便利。数据集中的每个样本都包含了英文和中文的对应字段，确保了数据的双语一致性。此外，数据集还特别标注了翻译质量评分，用户可以根据评分选择性地过滤数据，从而提高模型的训练效果。

使用方法

使用Alpaca Chinese Dataset时，用户可以直接加载alpaca-chinese-52k.json文件，该文件包含了52k条英文和中文的数据全集。对于需要进行数据修正或贡献的用户，可以通过修改./data目录下的json文件，并运行python main.py脚本，自动将修改更新到主数据集中。数据集的每个样本都包含了英文和中文的指令、输入和输出字段，用户可以根据需要选择性地使用这些字段进行模型训练或评估。

背景与挑战

背景概述

Alpaca Chinese Dataset是由研究人员和机构在2024年创建的中文指令微调数据集，旨在为双语微调提供高质量的中文和英文混合数据。该数据集的核心研究问题是如何在保持数据质量的同时，将英文数据准确翻译为中文，并进行必要的修正和优化。通过持续更新和质量评测，该数据集不仅解决了原始Alpaca英文数据集中的错误和不足，还为中文自然语言处理领域提供了宝贵的资源，推动了双语微调技术的发展。

当前挑战

Alpaca Chinese Dataset在构建过程中面临多项挑战。首先，翻译质量的保证是一个关键问题，尽管95%的翻译样本准确，但仍有5%需要人工修正。其次，原始数据集中存在的错误，如数学题的错误解答和标签不对齐等问题，需要在翻译前进行修正。此外，某些指令的直译可能导致韵脚丢失或时态不一致，需进行人工改写。最后，数据集的持续更新和维护也需要大量的人力和技术支持，以确保数据集的时效性和准确性。

常用场景

经典使用场景

Alpaca Chinese Dataset 主要用于中文和英文的双语微调任务，特别适用于自然语言处理领域的指令微调。该数据集通过提供高质量的中文翻译样本，帮助模型在中英双语环境下进行更精确的指令理解和生成。其经典使用场景包括但不限于：多语言模型微调、跨语言任务迁移学习以及双语对话系统的优化。

衍生相关工作

基于 Alpaca Chinese Dataset，研究者们开发了多种多语言模型微调框架，进一步推动了跨语言任务的研究。例如，有研究利用该数据集进行多语言对话系统的优化，提升了模型在不同语言环境下的表现。此外，该数据集还激发了关于多语言数据集构建和翻译质量评估的相关研究，为未来的多语言处理技术奠定了基础。

数据集最近研究