CohereForAI/aya_collection

Hugging Face2024-06-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CohereForAI/aya_collection

下载链接

链接失效反馈

资源简介：

Aya Collection 是一个多语言数据集，涵盖了包括阿塞拜疆语、阿姆哈拉语、阿拉伯语、阿萨姆语、班巴拉语、巴厘语、白俄罗斯语、本巴语、孟加拉语、布吉语、保加利亚语、加泰罗尼亚语、宿务语、捷克语、威尔士语、丹麦语、德语、希腊语、英语、世界语、爱沙尼亚语、巴斯克语、菲律宾语、芬兰语、丰语、法语、盖尔语、爱尔兰语、加利西亚语、古吉拉特语、海地克里奥尔语、豪萨语、希伯来语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、伊博语、印度尼西亚语、冰岛语、意大利语、爪哇语、日语、卡纳达语、克什米尔语、格鲁吉亚语、卡努里语、哈萨克语、高棉语、基尼亚卢旺达语、吉尔吉斯语、韩语、库尔德语、老挝语、拉脱维亚语、利古里亚语、立陶宛语、卢森堡语、马都拉语、马拉雅拉姆语、曼丁哥语、马拉地语、米南卡保语、马其顿语、马尔加什语、马耳他语、蒙古语、毛利语、马来语、缅甸语、尼泊尔语、尼日利亚皮钦语、荷兰语、挪威语、北索托语、奇切瓦语、旁遮普语、波斯语、波兰语、葡萄牙语、普什图语、罗马尼亚语、俄语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、萨摩亚语、修纳语、信德语、索马里语、南索托语、西班牙语、阿尔巴尼亚语、塞尔维亚语、巽他语、斯瓦希里语、瑞典语、泰米尔语、塔马舍克语、泰卢固语、塔吉克语、泰语、土耳其语、契维语、乌克兰语、乌尔都语、乌兹别克语、越南语、沃洛夫语、科萨语、意第绪语、约鲁巴语、中文和祖鲁语在内的多种语言。数据集适用于文本分类、摘要生成和翻译等任务。

The Aya Collection is a multilingual dataset covering languages such as Acehnese, Afrikaans, Amharic, Arabic, Azerbaijani, Balinese, Bambara, Belarusian, Bemba, Bengali, Buginese, Bulgarian, Catalan, Cebuano, Czech, Welsh, Danish, German, Greek, English, Esperanto, Estonian, Basque, Filipino, Finnish, Fon, French, Gaelic, Irish, Galician, Gujarati, Haitian Creole, Hausa, Hebrew, Hindi, Croatian, Hungarian, Armenian, Igbo, Indonesian, Icelandic, Italian, Javanese, Japanese, Kannada, Kashmiri, Georgian, Kanuri, Kazakh, Khmer, Kinyarwanda, Kyrgyz, Korean, Kurdish, Lao, Latvian, Ligurian, Lithuanian, Luxembourgish, Madurese, Malayalam, Mandingo, Marathi, Minangkabau, Macedonian, Malagasy, Maltese, Mongolian, Maori, Malay, Burmese, Nepali, Nigerian Pidgin, Dutch, Norwegian, Northern Sotho, Chichewa, Punjabi, Persian, Polish, Portuguese, Pashto, Romanian, Russian, Sinhala, Slovak, Slovenian, Samoan, Shona, Sindhi, Somali, Southern Sotho, Spanish, Albanian, Serbian, Sundanese, Swahili, Swedish, Tamil, Tamashek, Telugu, Tajik, Thai, Turkish, Twi, Ukrainian, Urdu, Uzbek, Vietnamese, Wolof, Xhosa, Yiddish, Yoruba, Chinese, and Zulu. The dataset is suitable for tasks such as text classification, summarization, and translation.

提供机构：

CohereForAI

原始信息汇总

数据集概述

基本信息

名称: Aya Collection
许可证: Apache-2.0
大小类别: 100M<n<1B
任务类别:
- 文本分类
- 摘要生成
- 翻译

语言支持

数据集支持多种语言，包括但不限于：

ace, afr, amh, ara, aze, ban, bbc, bel, bem, ben, bjn, bul, cat, ceb, ces, cym, dan, deu, ell, eng, epo, est, eus, fil, fin, fon, fra, gla, gle, glg, guj, hat, hau, heb, hin, hrv, hun, hye, ibo, ind, isl, ita, jav, jpn, kan, kas, kat, kau, kaz, khm, kin, kir, kor, kur, lao, lav, lij, lit, ltz, mad, mal, man, mar, min, mkd, mlg, mlt, mon, mri, msa, mya, nep, nij, nld, nor, nso, nya, pan, pes, pol, por, pus, ron, rus, sin, slk, slv, smo, sna, snd, som, sot, spa, sqi, srp, sun, swa, swe, tam, taq, tel, tgk, tha, tur, twi, ukr, urd, uzb, vie, wol, xho, yid, yor, zho, zul

数据集结构

数据集包含多个子数据集，每个子数据集具有以下特征：

id: int64
inputs: string
targets: string
dataset_name: string
sub_dataset_name: string
task_type: string
template_id: int64
language: string
split: string
script: string

子数据集详情

以下是部分子数据集的具体信息：

aya_dataset
- 训练集: 202364个样本，总大小245523658字节
- 下载大小: 134230030字节
templated_afriqa
- 测试集: 6834个样本，总大小1053208.88字节
- 训练集: 5100个样本，总大小785976.78字节
- 验证集: 5158个样本，总大小794915.34字节
- 下载大小: 945238字节
- 数据集总大小: 2634101.0字节
templated_hindi_headline
- 测试集: 23452个样本，总大小228788501.13字节
- 训练集: 94217个样本，总大小919144047.87字节
- 下载大小: 243324488字节
- 数据集总大小: 1147932549.0字节
templated_hindi_news
- 测试集: 10655个样本，总大小109524809.12字节
- 训练集: 42524个样本，总大小437112433.88字节
- 下载大小: 112865381字节
- 数据集总大小: 546637243.0字节
templated_japanese_instruct
- 训练集: 2463624个样本，总大小1345341895字节
- 下载大小: 580330810字节
- 数据集总大小: 1345341895字节
templated_soda
- 测试集: 595872个样本，总大小487742788.93字节
- 训练集: 3077721个样本，总大小2519225981.57字节
- 验证集: 585384个样本，总大小479157981.50字节
- 下载大小: 1668121549字节
- 数据集总大小: 3486126752.0字节

此概述提供了数据集的基本信息、语言支持、结构以及部分子数据集的详细信息。

搜集汇总

数据集介绍

构建方式

Aya Collection数据集的构建方式涉及多种语言和任务类型，旨在支持自然语言处理领域的多样化研究。该数据集由CohereForAI团队维护，采用Apache-2.0许可证。数据集包含文本分类、摘要和翻译等多种自然语言处理任务的数据。数据集的构建过程中，收集了大量的文本数据，并对数据进行清洗、标注和分类，以确保数据的质量和多样性。

特点

Aya Collection数据集的特点在于其语言多样性和任务多样性。数据集涵盖了多种语言的文本数据，包括但不限于英语、法语、德语、西班牙语等。同时，数据集还包含了多种自然语言处理任务的数据，如文本分类、摘要和翻译等。这使得数据集适用于多种自然语言处理任务的研究和应用。此外，数据集还提供了详细的元数据信息，如数据集名称、子数据集名称、任务类型、模板ID、语言、分割方式等，方便用户进行数据分析和处理。

使用方法

使用Aya Collection数据集时，用户可以根据自己的研究需求选择合适的数据子集。数据集提供了详细的元数据信息，包括数据集名称、子数据集名称、任务类型、模板ID、语言、分割方式等，方便用户进行数据分析和处理。用户可以使用Python等编程语言编写代码，通过HuggingFace提供的API接口访问数据集。例如，可以使用以下代码加载Aya Collection数据集： from datasets import load_dataset # 加载数据集 aya_collection = load_dataset('CohereForAI/aya_collection') # 获取指定子数据集 train_data = aya_collection['train'] # 获取数据集中的样本 sample = train_data[0] # 打印样本信息 print(sample)

背景与挑战

背景概述

在自然语言处理领域，多元文化和多语言数据集的构建对于促进语言模型的通用性和公平性至关重要。Aya Collection数据集应运而生，它旨在提供一个包含多种语言和文本任务的综合性数据集，以支持跨语言模型的研究和应用。该数据集涵盖了包括但不限于英语、法语、德语、日语、中文等多种语言，并涉及文本分类、摘要、翻译等多种自然语言处理任务。Aya Collection数据集的构建始于CohereForAI，旨在通过收集和整理不同语言的文本数据，为研究者提供一个可以训练和评估跨语言模型的资源。

当前挑战

尽管Aya Collection数据集提供了丰富的多语言文本资源，但在构建和应用过程中仍面临一些挑战。首先，确保数据集的多样性、平衡性和质量是一个关键问题。数据集需要覆盖不同语言、文化背景和领域，同时确保各类文本的代表性，以避免偏差。其次，多语言文本的标注和预处理是一个技术难题，需要处理不同语言的语法、语义和文化差异，确保数据的一致性和准确性。此外，随着数据集规模的扩大，数据管理和存储也成为一项挑战，需要高效的数据管理和存储解决方案。最后，跨语言模型的评估和比较需要建立统一的标准和指标，以促进模型之间的公平竞争和性能比较。

常用场景

经典使用场景

Aya Collection数据集在文本分类、摘要和翻译等自然语言处理任务中具有广泛的应用。例如，在文本分类任务中，数据集可用于训练模型对文本进行情感分析、主题分类等；在摘要任务中，可用于生成新闻摘要、产品描述等；在翻译任务中，可用于训练跨语言的翻译模型。这些应用场景均体现了Aya Collection数据集在处理多语言文本数据方面的优势。

解决学术问题

Aya Collection数据集解决了多语言文本处理中的数据稀缺问题，为研究人员提供了大量高质量的训练数据。同时，该数据集覆盖了多种自然语言处理任务，有助于推动相关算法和模型的研究与发展。此外，Aya Collection数据集的多样化语言和任务类型，使得研究人员可以针对不同场景进行模型训练和评估，从而提升模型的泛化能力和实际应用效果。

衍生相关工作

Aya Collection数据集的发布，促进了多语言自然语言处理领域的研究与发展。基于该数据集，研究人员可以开展更多关于多语言文本分类、摘要和翻译等方面的研究，推动相关算法和模型的创新。此外，Aya Collection数据集还可以为其他相关研究提供参考和借鉴，如多语言信息检索、跨语言信息抽取等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集