five

llama-lang-adapt/AfriInstruct-Data

收藏
Hugging Face2024-06-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/llama-lang-adapt/AfriInstruct-Data
下载链接
链接失效反馈
官方服务:
资源简介:
African-IT数据集是一个综合性的公开数据集集合,专门用于训练和评估针对非洲语言的自然语言处理(NLP)任务。该数据集结合了多个来源,为从事非洲语言适应研究的机器学习从业者和研究人员提供了丰富的资源。数据集分为训练+验证和评估两部分,涵盖了多种NLP任务,如机器翻译、命名实体识别、情感分析等。每个数据集都有其特定的许可证,使用时需遵守。

African-IT数据集是一个综合性的公开数据集集合,专门用于训练和评估针对非洲语言的自然语言处理(NLP)任务。该数据集结合了多个来源,为从事非洲语言适应研究的机器学习从业者和研究人员提供了丰富的资源。数据集分为训练+验证和评估两部分,涵盖了多种NLP任务,如机器翻译、命名实体识别、情感分析等。每个数据集都有其特定的许可证,使用时需遵守。
提供机构:
llama-lang-adapt
原始信息汇总

Llama-Lang-Adapt: African-IT

概述

African-IT 数据集是一个综合性的公开数据集集合,专门为非洲语言的自然语言处理(NLP)任务的训练和评估而策划。该数据集结合了多个来源,为从事非洲语言适应性机器学习的实践者和研究人员提供了一个丰富的资源。

内容

数据集分为两个主要部分:训练 + 验证和评估。

训练 + 验证

  1. MAFAND-MT
  2. MasakhaNER2.0
  3. MasakaPOS
  4. MasakhaNEWS
  5. AfriSenti
  6. NollySenti
  7. MenYo20k
  8. FLORES
  9. XL-Sum
  10. xP3

评估

  1. SIB-200 (主题分类)
  2. NTrex (机器翻译)
  3. AfriQA (跨语言问答)

评估详情

评估在 MAFAND-MT 和其他包含在训练和验证数据集中的测试部分进行。

许可

每个包含的数据集都受其各自的许可协议约束。以下是每个数据集已知的许可协议摘要:

  1. MAFAND-MT: [https://github.com/masakhane-io/lafand-mt/blob/main/LICENSE]
  2. MasakhaNER2.0: [https://huggingface.co/datasets/masakhane/masakhaner2]
  3. MasakaPOS: [https://github.com/masakhane-io/masakhane-pos/blob/main/LICENSE]
  4. MasakhaNEWS: [https://huggingface.co/datasets/masakhane/masakhanews]
  5. AfriSenti: [https://github.com/afrisenti-semeval/afrisent-semeval-2023]
  6. NollySenti: [https://github.com/IyanuSh/NollySenti]
  7. MenYo20k: [https://github.com/uds-lsv/menyo-20k_MT?tab=License-1-ov-file#readme]
  8. FLORES: [https://github.com/openlanguagedata/flores?tab=CC-BY-SA-4.0-1-ov-file#readme]
  9. XL-Sum: [https://huggingface.co/datasets/csebuetnlp/xlsum]
  10. xP3: [https://huggingface.co/datasets/bigscience/xP3]
  11. SIB-200: [https://github.com/dadelani/sib-200]
  12. NTrex: [https://github.com/MicrosoftTranslator/NTREX]
  13. AfriQA: [https://huggingface.co/datasets/masakhane/afriqa]

在使用 African-IT 数据集时,请确保遵守每个数据集的许可条款。

使用

African-IT 数据集旨在用于研究和教育目的。在使用此数据集时,请引用所包含的各个数据集的原始来源。

贡献

欢迎对数据集进行贡献。如果您有额外的数据集或改进建议,请提交拉取请求或联系维护者。

联系

有关 African-IT 数据集的更多信息或问题,请联系项目维护者。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作