five

ashourzadeh7/aya_collection_1

收藏
Hugging Face2024-10-13 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/ashourzadeh7/aya_collection_1
下载链接
链接失效反馈
官方服务:
资源简介:
`Aya Collection`是一个综合性的多语言数据集,旨在为全球研究人员提供用于训练多语言模型的数据。该数据集包含三种数据来源:1. 模板化数据:通过与流利说话者合作创建的模板,用于将现有数据集自动扩展到多种语言;2. 翻译数据:使用NLLB 3.3B参数机器翻译模型将19个数据集翻译成101种语言(114种方言);3. Aya数据集:这是唯一一个完全由人工注释的数据集。

The Aya Collection is a comprehensive, large corpus of datasets designed for training multilingual models. The dataset includes three different sources of data: templated data, translated data, and the Aya Dataset. The templated data was created by collaborating with fluent speakers to generate templates for automatic expansion into various languages. The translated data consists of a subset of 19 datasets translated into 101 languages using the NLLB 3.3B model. The Aya Dataset is a human-annotated subset of the collection.
提供机构:
ashourzadeh7
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作