five

CohereForAI/aya_collection|多语言处理数据集|自然语言处理数据集

收藏
hugging_face2024-06-28 更新2024-03-04 收录
多语言处理
自然语言处理
下载链接:
https://hf-mirror.com/datasets/CohereForAI/aya_collection
下载链接
链接失效反馈
资源简介:
Aya Collection 是一个多语言数据集,涵盖了包括阿塞拜疆语、阿姆哈拉语、阿拉伯语、阿萨姆语、班巴拉语、巴厘语、白俄罗斯语、本巴语、孟加拉语、布吉语、保加利亚语、加泰罗尼亚语、宿务语、捷克语、威尔士语、丹麦语、德语、希腊语、英语、世界语、爱沙尼亚语、巴斯克语、菲律宾语、芬兰语、丰语、法语、盖尔语、爱尔兰语、加利西亚语、古吉拉特语、海地克里奥尔语、豪萨语、希伯来语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、伊博语、印度尼西亚语、冰岛语、意大利语、爪哇语、日语、卡纳达语、克什米尔语、格鲁吉亚语、卡努里语、哈萨克语、高棉语、基尼亚卢旺达语、吉尔吉斯语、韩语、库尔德语、老挝语、拉脱维亚语、利古里亚语、立陶宛语、卢森堡语、马都拉语、马拉雅拉姆语、曼丁哥语、马拉地语、米南卡保语、马其顿语、马尔加什语、马耳他语、蒙古语、毛利语、马来语、缅甸语、尼泊尔语、尼日利亚皮钦语、荷兰语、挪威语、北索托语、奇切瓦语、旁遮普语、波斯语、波兰语、葡萄牙语、普什图语、罗马尼亚语、俄语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、萨摩亚语、修纳语、信德语、索马里语、南索托语、西班牙语、阿尔巴尼亚语、塞尔维亚语、巽他语、斯瓦希里语、瑞典语、泰米尔语、塔马舍克语、泰卢固语、塔吉克语、泰语、土耳其语、契维语、乌克兰语、乌尔都语、乌兹别克语、越南语、沃洛夫语、科萨语、意第绪语、约鲁巴语、中文和祖鲁语在内的多种语言。数据集适用于文本分类、摘要生成和翻译等任务。

The Aya Collection is a multilingual dataset covering languages such as Acehnese, Afrikaans, Amharic, Arabic, Azerbaijani, Balinese, Bambara, Belarusian, Bemba, Bengali, Buginese, Bulgarian, Catalan, Cebuano, Czech, Welsh, Danish, German, Greek, English, Esperanto, Estonian, Basque, Filipino, Finnish, Fon, French, Gaelic, Irish, Galician, Gujarati, Haitian Creole, Hausa, Hebrew, Hindi, Croatian, Hungarian, Armenian, Igbo, Indonesian, Icelandic, Italian, Javanese, Japanese, Kannada, Kashmiri, Georgian, Kanuri, Kazakh, Khmer, Kinyarwanda, Kyrgyz, Korean, Kurdish, Lao, Latvian, Ligurian, Lithuanian, Luxembourgish, Madurese, Malayalam, Mandingo, Marathi, Minangkabau, Macedonian, Malagasy, Maltese, Mongolian, Maori, Malay, Burmese, Nepali, Nigerian Pidgin, Dutch, Norwegian, Northern Sotho, Chichewa, Punjabi, Persian, Polish, Portuguese, Pashto, Romanian, Russian, Sinhala, Slovak, Slovenian, Samoan, Shona, Sindhi, Somali, Southern Sotho, Spanish, Albanian, Serbian, Sundanese, Swahili, Swedish, Tamil, Tamashek, Telugu, Tajik, Thai, Turkish, Twi, Ukrainian, Urdu, Uzbek, Vietnamese, Wolof, Xhosa, Yiddish, Yoruba, Chinese, and Zulu. The dataset is suitable for tasks such as text classification, summarization, and translation.
提供机构:
CohereForAI
原始信息汇总

数据集概述

基本信息

  • 名称: Aya Collection
  • 许可证: Apache-2.0
  • 大小类别: 100M<n<1B
  • 任务类别:
    • 文本分类
    • 摘要生成
    • 翻译

语言支持

数据集支持多种语言,包括但不限于:

  • ace, afr, amh, ara, aze, ban, bbc, bel, bem, ben, bjn, bul, cat, ceb, ces, cym, dan, deu, ell, eng, epo, est, eus, fil, fin, fon, fra, gla, gle, glg, guj, hat, hau, heb, hin, hrv, hun, hye, ibo, ind, isl, ita, jav, jpn, kan, kas, kat, kau, kaz, khm, kin, kir, kor, kur, lao, lav, lij, lit, ltz, mad, mal, man, mar, min, mkd, mlg, mlt, mon, mri, msa, mya, nep, nij, nld, nor, nso, nya, pan, pes, pol, por, pus, ron, rus, sin, slk, slv, smo, sna, snd, som, sot, spa, sqi, srp, sun, swa, swe, tam, taq, tel, tgk, tha, tur, twi, ukr, urd, uzb, vie, wol, xho, yid, yor, zho, zul

数据集结构

数据集包含多个子数据集,每个子数据集具有以下特征:

  • id: int64
  • inputs: string
  • targets: string
  • dataset_name: string
  • sub_dataset_name: string
  • task_type: string
  • template_id: int64
  • language: string
  • split: string
  • script: string

子数据集详情

以下是部分子数据集的具体信息:

  1. aya_dataset

    • 训练集: 202364个样本,总大小245523658字节
    • 下载大小: 134230030字节
  2. templated_afriqa

    • 测试集: 6834个样本,总大小1053208.88字节
    • 训练集: 5100个样本,总大小785976.78字节
    • 验证集: 5158个样本,总大小794915.34字节
    • 下载大小: 945238字节
    • 数据集总大小: 2634101.0字节
  3. templated_hindi_headline

    • 测试集: 23452个样本,总大小228788501.13字节
    • 训练集: 94217个样本,总大小919144047.87字节
    • 下载大小: 243324488字节
    • 数据集总大小: 1147932549.0字节
  4. templated_hindi_news

    • 测试集: 10655个样本,总大小109524809.12字节
    • 训练集: 42524个样本,总大小437112433.88字节
    • 下载大小: 112865381字节
    • 数据集总大小: 546637243.0字节
  5. templated_japanese_instruct

    • 训练集: 2463624个样本,总大小1345341895字节
    • 下载大小: 580330810字节
    • 数据集总大小: 1345341895字节
  6. templated_soda

    • 测试集: 595872个样本,总大小487742788.93字节
    • 训练集: 3077721个样本,总大小2519225981.57字节
    • 验证集: 585384个样本,总大小479157981.50字节
    • 下载大小: 1668121549字节
    • 数据集总大小: 3486126752.0字节

此概述提供了数据集的基本信息、语言支持、结构以及部分子数据集的详细信息。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Aya Collection数据集的构建方式涉及多种语言和任务类型,旨在支持自然语言处理领域的多样化研究。该数据集由CohereForAI团队维护,采用Apache-2.0许可证。数据集包含文本分类、摘要和翻译等多种自然语言处理任务的数据。数据集的构建过程中,收集了大量的文本数据,并对数据进行清洗、标注和分类,以确保数据的质量和多样性。
特点
Aya Collection数据集的特点在于其语言多样性和任务多样性。数据集涵盖了多种语言的文本数据,包括但不限于英语、法语、德语、西班牙语等。同时,数据集还包含了多种自然语言处理任务的数据,如文本分类、摘要和翻译等。这使得数据集适用于多种自然语言处理任务的研究和应用。此外,数据集还提供了详细的元数据信息,如数据集名称、子数据集名称、任务类型、模板ID、语言、分割方式等,方便用户进行数据分析和处理。
使用方法
使用Aya Collection数据集时,用户可以根据自己的研究需求选择合适的数据子集。数据集提供了详细的元数据信息,包括数据集名称、子数据集名称、任务类型、模板ID、语言、分割方式等,方便用户进行数据分析和处理。用户可以使用Python等编程语言编写代码,通过HuggingFace提供的API接口访问数据集。例如,可以使用以下代码加载Aya Collection数据集: from datasets import load_dataset # 加载数据集 aya_collection = load_dataset('CohereForAI/aya_collection') # 获取指定子数据集 train_data = aya_collection['train'] # 获取数据集中的样本 sample = train_data[0] # 打印样本信息 print(sample)
背景与挑战
背景概述
在自然语言处理领域,多元文化和多语言数据集的构建对于促进语言模型的通用性和公平性至关重要。Aya Collection数据集应运而生,它旨在提供一个包含多种语言和文本任务的综合性数据集,以支持跨语言模型的研究和应用。该数据集涵盖了包括但不限于英语、法语、德语、日语、中文等多种语言,并涉及文本分类、摘要、翻译等多种自然语言处理任务。Aya Collection数据集的构建始于CohereForAI,旨在通过收集和整理不同语言的文本数据,为研究者提供一个可以训练和评估跨语言模型的资源。
当前挑战
尽管Aya Collection数据集提供了丰富的多语言文本资源,但在构建和应用过程中仍面临一些挑战。首先,确保数据集的多样性、平衡性和质量是一个关键问题。数据集需要覆盖不同语言、文化背景和领域,同时确保各类文本的代表性,以避免偏差。其次,多语言文本的标注和预处理是一个技术难题,需要处理不同语言的语法、语义和文化差异,确保数据的一致性和准确性。此外,随着数据集规模的扩大,数据管理和存储也成为一项挑战,需要高效的数据管理和存储解决方案。最后,跨语言模型的评估和比较需要建立统一的标准和指标,以促进模型之间的公平竞争和性能比较。
常用场景
经典使用场景
Aya Collection数据集在文本分类、摘要和翻译等自然语言处理任务中具有广泛的应用。例如,在文本分类任务中,数据集可用于训练模型对文本进行情感分析、主题分类等;在摘要任务中,可用于生成新闻摘要、产品描述等;在翻译任务中,可用于训练跨语言的翻译模型。这些应用场景均体现了Aya Collection数据集在处理多语言文本数据方面的优势。
解决学术问题
Aya Collection数据集解决了多语言文本处理中的数据稀缺问题,为研究人员提供了大量高质量的训练数据。同时,该数据集覆盖了多种自然语言处理任务,有助于推动相关算法和模型的研究与发展。此外,Aya Collection数据集的多样化语言和任务类型,使得研究人员可以针对不同场景进行模型训练和评估,从而提升模型的泛化能力和实际应用效果。
衍生相关工作
Aya Collection数据集的发布,促进了多语言自然语言处理领域的研究与发展。基于该数据集,研究人员可以开展更多关于多语言文本分类、摘要和翻译等方面的研究,推动相关算法和模型的创新。此外,Aya Collection数据集还可以为其他相关研究提供参考和借鉴,如多语言信息检索、跨语言信息抽取等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录