SEACrowd/aya_dataset

Name: SEACrowd/aya_dataset
Creator: SEACrowd
Published: 2024-06-24 13:27:44
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/aya_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Aya Dataset是一个多语言指令微调数据集，由Cohere For AI的Aya Annotation Platform社区策划，包含204k个人工标注的提示-完成对以及标注者的人口统计数据。该数据集可用于训练、微调和评估多语言大语言模型。数据集支持的任务是指令微调，支持的语言包括ceb、ind、jav、mya、tam、fil、sun、tha、vie和zsm。数据集的使用方法包括使用`datasets`库和`seacrowd`库加载数据集。数据集的版本信息包括源版本1.0.0和SEACrowd版本2024.06.20。数据集的许可证是Apache 2.0。

The Aya Dataset is a multilingual instruction fine-tuning dataset curated by an open-science community via Aya Annotation Platform from Cohere For AI. The dataset contains a total of 204k human-annotated prompt-completion pairs along with the demographics data of the annotators. This dataset can be used to train, finetune, and evaluate multilingual LLMs. The supported task is instruction tuning, and the supported languages include ceb, ind, jav, mya, tam, fil, sun, tha, vie, and zsm. The dataset can be loaded using the `datasets` library and the `seacrowd` library. The dataset version includes source version 1.0.0 and SEACrowd version 2024.06.20. The dataset license is Apache 2.0.

提供机构：

SEACrowd

原始信息汇总

Aya Dataset

概述

名称: Aya Dataset
语言: ceb, ind, jav, mya, tam, fil, sun, tha, vie, zsm
任务类别: instruction-tuning
标签: instruction-tuning
描述: 一个多语言指令微调数据集，由Cohere For AI的Aya Annotation Platform上的开放科学社区策划。包含204k人类注释的提示-完成对及其注释者的 demographics 数据。

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

许可证

类型: Apache license 2.0 (apache-2.0)

引用

@misc{singh2024aya, title={Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning}, author={Shivalika Singh and Freddie Vargus and Daniel Dsouza and Börje F. Karlsson and Abinaya Mahendiran and Wei-Yin Ko and Herumb Shandilya and Jay Patel and Deividas Mataciunas and Laura OMahony and Mike Zhang and Ramith Hettiarachchi and Joseph Wilson and Marina Machado and Luisa Souza Moura and Dominik Krzemiński and Hakimeh Fadaei and Irem Ergün and Ifeoma Okoh and Aisha Alaagib and Oshan Mudannayake and Zaid Alyafeai and Vu Minh Chien and Sebastian Ruder and Surya Guthikonda and Emad A. Alghamdi and Sebastian Gehrmann and Niklas Muennighoff and Max Bartolo and Julia Kreutzer and Ahmet Üstün and Marzieh Fadaee and Sara Hooker}, year={2024}, eprint={2402.06619}, archivePrefix={arXiv}, primaryClass={cs.CL} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

Aya数据集是由Cohere For AI发起的开放科学社区，通过Aya注释平台精心构建的多语言指令微调数据集。该数据集汇聚了来自全球各地标注者的集体智慧，共收录了204k条人工标注的提示-完成对，并同步记录了标注者的详细人口统计学信息。这一构建方式不仅确保了数据的高质量和多样性，还体现了开放协作的科研精神，为多语言自然语言处理研究提供了坚实的基础。

特点

该数据集最显著的特点在于其多语言覆盖范围，涵盖了包括宿务语、印度尼西亚语、爪哇语、缅甸语、泰米尔语、菲律宾语、巽他语、泰语、越南语和马来语在内的十种语言，聚焦于东南亚语言区域。作为指令微调数据集，它专为训练、微调和评估多语言大语言模型而设计，其标注者人口统计学信息的附加记录更为研究语言与文化背景的交叉影响提供了独特视角，展现出高度的专业性和针对性。

使用方法

用户可通过HuggingFace的datasets库便捷加载该数据集，具体命令为`datasets.load_dataset("SEACrowd/aya_dataset", trust_remote_code=True)`。此外，SEACrowd库也提供了灵活的加载方式，支持通过`sc.load_dataset("aya_dataset", schema="seacrowd")`加载默认配置，或使用`sc.available_config_names("aya_dataset")`查看所有子集，再通过`sc.load_dataset_by_config_name(config_name="<config_name>")`加载特定子集，极大地方便了研究者的定制化使用。

背景与挑战

背景概述

在自然语言处理领域，指令微调（Instruction Tuning）已成为提升大语言模型遵循人类指令能力的关键技术。然而，现有指令微调数据集多集中于英语等高资源语言，严重制约了多语言大语言模型的发展。为弥合这一鸿沟，Cohere For AI研究团队于2024年发布了Aya Dataset，这是一个由开放科学社区通过Aya标注平台精心构建的多语言指令微调数据集。该数据集包含约20.4万条人工标注的提示-回答对，覆盖宿务语、印尼语、爪哇语、缅甸语、泰米尔语、菲律宾语、巽他语、泰语、越南语及马来语等十种东南亚语言，同时附带标注者的详细人口统计学信息。这一开创性工作由Shivalika Singh等研究者主导，其核心研究问题在于为低资源语言提供高质量的指令微调数据，从而推动多语言大语言模型的普惠化发展。Aya Dataset的发布不仅填补了东南亚语言在指令微调领域的空白，更为全球多语言自然语言处理研究提供了宝贵的数据基础，对促进语言多样性和技术包容性具有深远影响。

当前挑战

Aya Dataset所面临的核心挑战涉及多个维度。首先，在领域问题层面，多语言指令微调数据集长期面临资源分布不均的困境，多数现有数据集仅覆盖英语等少数高资源语言，导致东南亚等低资源语言的大语言模型在指令遵循能力上严重不足，难以满足真实应用场景中的多语言需求。其次，在数据集构建过程中，团队需克服语言多样性带来的标注一致性难题，确保不同语言间的标注质量与语义对齐；同时，开放科学社区的标注模式虽有助于扩大数据规模，却引入了标注者背景差异可能导致的偏差风险，如何有效收集并利用人口统计学信息以控制数据质量成为关键挑战。此外，东南亚语言复杂的语法结构和文化语境进一步增加了数据清洗与标准化处理的难度，而数据集版本迭代与社区维护的可持续性也是长期需应对的挑战。

常用场景

经典使用场景

Aya Dataset 作为多语言指令微调数据集，其最经典的使用场景是训练和微调大型语言模型（LLMs），使其能够理解并生成涵盖东南亚及南亚多种低资源语言的指令响应。该数据集包含204k条人工标注的提示-完成对，覆盖宿务语、印尼语、爪哇语、缅甸语、泰米尔语、菲律宾语、巽他语、泰语、越南语和马来语等十种语言，显著弥补了现有指令数据集在语言多样性上的不足。研究者可借此构建具备跨语言泛化能力的对话系统、翻译助手或知识问答模型，尤其适用于需要处理多语言用户输入的东南亚地区应用。

衍生相关工作

Aya Dataset 衍生了一系列经典工作，包括基于该数据集的指令微调方法改进、多语言模型评估基准构建以及跨语言知识蒸馏研究。例如，Cohere For AI 团队利用该数据集训练了 Aya 模型系列，展示了在多种低资源语言上的显著性能提升。后续研究进一步探索了数据增强策略、注释者人口统计信息对模型偏见的影响，以及将 Aya Dataset 与 Aya Collection 等其他多语言资源结合以扩展覆盖范围。这些工作共同推动了多语言 NLP 领域的数据驱动创新与开放科学实践。

数据集最近研究