CohereForAI/aya_dataset

Hugging Face2024-06-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CohereForAI/aya_dataset

下载链接

链接失效反馈

资源简介：

Aya数据集是一个多语言的指令微调数据集，由Cohere For AI通过Aya标注平台策划，包含204k条人类标注的提示-完成对，以及标注者的人口统计数据。数据集涵盖了65种语言（包括方言和脚本），并提供了两种类型的数据：人类标注和人口统计数据。人类标注包括原始标注和重新标注，人口统计数据包括标注者的年龄、性别、国家和语言等信息。数据集可以用于训练、微调和评估多语言大语言模型。

提供机构：

CohereForAI

原始信息汇总

数据集概述

基本信息

名称: Aya Dataset
语言: 支持65种语言，包括28种高资源语言、12种中资源语言和31种低资源语言。
许可证: Apache-2.0
多语言性: 多语言
大小: 数据集大小为256,374,059字节，下载大小为275,359,572字节。
来源: 原始数据
任务类别: 其他

数据集组成

人类注释: 包括原始注释（全新的提示和完成由注释者编写）和重新注释（自动生成的提示和完成的编辑）。
人口统计数据: 每个注释者的匿名信息。

数据集特征

默认配置:
- inputs: 语言模型的提示或输入。
- targets: 语言模型的完成或输出。
- language: inputs和targets的语言。
- language_code: inputs和targets的语言的ISO代码。
- annotation_type: 表示inputs和targets是‘original_annotations’还是‘re-annotations’。
- user_id: 提交提示-完成对的注释者的唯一标识符。
人口统计数据配置:
- user_id: 提交提示-完成对的注释者的唯一标识符。
- age_range: 注释者的年龄范围。
- gender: 注释者的性别。
- country: 注释者的国家。
- languages: 注释者所说的语言列表。
- dialects: 注释者报告的方言。

数据分割

人类注释:
- train: 202,362个实例
- test: 1,750个实例
人口统计数据:
- train: 1,456个实例

数据实例示例

人类注释: json { "inputs": "...", "targets": "...", "language": "English", "language_code": "eng", "annotation_type": "original-annotations", "user_id": "..." }
人口统计数据: json { "user_id": "...", "age_range": [25, 35], "gender": "female", "languages": ["English", "Hausa"], "dialects": ["Hausa"] }

统计信息

注释类型:
- 原始注释: 138,844个实例
- 重新注释: 65,270个实例
- 总计: 204,114个实例

语言覆盖

数据集覆盖65种语言，包括多种方言和脚本。

数据集版本和维护

维护状态: 主动维护
当前版本: 1.0
最后更新: 2024年2月
首次发布: 2024年2月
维护计划: 根据志愿者贡献定期更新。

搜集汇总

数据集介绍

构建方式

Aya Dataset是由Cohere Labs的Aya开放科学倡议成员通过Aya标注平台众包构建的。该数据集包含来自65种语言的204k个人工标注的提示-完成对，以及标注者的匿名人口统计数据。构建过程中，使用了开源NLP数据集的原始标注和编辑标注。标注平台在2023年5月至12月期间收集了这些数据，并通过志愿者进行质量评估。

特点

Aya Dataset是一个多语言指令微调数据集，具有以下特点：1. 包含65种语言（包括方言和脚本）的204k个人工标注的提示-完成对；2. 数据集覆盖了高资源、中资源和低资源语言，具有广泛的代表性；3. 数据集附带标注者的匿名人口统计数据，有助于研究不同语言和文化背景下的标注差异。

使用方法

使用Aya Dataset进行多语言语言模型的训练、微调和评估。可以通过以下步骤使用该数据集：1. 安装Hugging Face Datasets库；2. 使用load_dataset函数加载Aya Dataset和Aya Demographics数据集；3. 根据需要选择不同的语言和标注类型进行模型训练和评估。

背景与挑战

背景概述

在自然语言处理（NLP）领域，构建一个能够处理多语言指令的模型是研究人员的一项重要任务。为了推动这一领域的发展，Cohere Labs于2023年5月至12月期间，通过Aya Annotation Platform，由全球志愿者共同创建了一个名为Aya Dataset的多语言指令微调数据集。该数据集包含了204,000个人工注释的提示-完成对，涵盖了65种语言，旨在帮助训练、微调和评估多语言语言模型。Aya Dataset的创建不仅促进了多语言NLP技术的发展，也使得NLP模型能够在更多语言环境中发挥作用，从而提高了全球范围内的语言理解和生成能力。

当前挑战

尽管Aya Dataset在多语言NLP领域具有重要的意义，但它也面临着一些挑战。首先，数据集中仅涵盖了世界上很小一部分的语言和方言，这限制了其在全球范围内的适用性。其次，数据集的构建过程中存在贡献不均的问题，一些语言可能因为少数主要贡献者而缺乏多样性。此外，数据集中可能存在文化和个人偏见，这可能会影响模型的公正性和准确性。最后，由于数据集缺乏重新标记的能力，可能存在一些错误标记的数据，这可能会对模型的训练和评估产生不利影响。

常用场景

经典使用场景

Aya Dataset, 由 Cohere Labs 通过 Aya 注释平台开放科学社区策划，是一个多语言指令微调数据集。它包含 204k 个由人类注释的提示-完成对，以及注释者的人口统计数据。此数据集可用于训练、微调和评估多语言大型语言模型。在多语言自然语言处理 (NLP) 领域，Aya Dataset 具有广泛的应用，尤其是在需要模型能够理解和生成多种语言文本的场景中。例如，它可以用于开发能够处理不同语言之间的翻译、文本摘要、问答系统等任务的模型。

实际应用

Aya Dataset 的实际应用场景非常广泛。例如，它可以用于开发能够理解和支持多种语言的客户服务聊天机器人、翻译工具、语音助手等。此外，Aya Dataset 还可以用于教育领域，例如开发多语言学习平台或开发能够帮助语言学习者提高语言技能的应用。Aya Dataset 的多语言特性使其在全球化日益加深的今天具有重要的实用价值。

衍生相关工作

Aya Dataset 衍生了许多相关的经典工作。例如，Aya Collection 数据集通过将指令风格模板应用于来自流利说话者的 44 个数据集，包括将 19 个指令风格数据集翻译成 101 种语言，提供了 5.13 亿个用于各种任务的实例。Aya Collection Language Split 数据集根据语言级别子集对 Aya Collection 进行了结构化。Aya Evaluation Suite 数据集是一个多语言开放式生成评估集，包含 250 个文化根源的提示，涵盖 7 种语言，以及 200 个翻译成 24 种语言的提示，以及从英文 Dolly 中选出的 6 种语言的跨文化相关版本。这些衍生工作进一步扩展了 Aya Dataset 的应用范围，为多语言 NLP 研究提供了更多的资源和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集