llama-lang-adapt/AfriInstruct-Data
收藏Hugging Face2024-06-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/llama-lang-adapt/AfriInstruct-Data
下载链接
链接失效反馈官方服务:
资源简介:
African-IT数据集是一个综合性的公开数据集集合,专门用于训练和评估针对非洲语言的自然语言处理(NLP)任务。该数据集结合了多个来源,为从事非洲语言适应研究的机器学习从业者和研究人员提供了丰富的资源。数据集分为训练+验证和评估两部分,涵盖了多种NLP任务,如机器翻译、命名实体识别、情感分析等。每个数据集都有其特定的许可证,使用时需遵守。
African-IT数据集是一个综合性的公开数据集集合,专门用于训练和评估针对非洲语言的自然语言处理(NLP)任务。该数据集结合了多个来源,为从事非洲语言适应研究的机器学习从业者和研究人员提供了丰富的资源。数据集分为训练+验证和评估两部分,涵盖了多种NLP任务,如机器翻译、命名实体识别、情感分析等。每个数据集都有其特定的许可证,使用时需遵守。
提供机构:
llama-lang-adapt
原始信息汇总
Llama-Lang-Adapt: African-IT
概述
African-IT 数据集是一个综合性的公开数据集集合,专门为非洲语言的自然语言处理(NLP)任务的训练和评估而策划。该数据集结合了多个来源,为从事非洲语言适应性机器学习的实践者和研究人员提供了一个丰富的资源。
内容
数据集分为两个主要部分:训练 + 验证和评估。
训练 + 验证
- MAFAND-MT
- MasakhaNER2.0
- MasakaPOS
- MasakhaNEWS
- AfriSenti
- NollySenti
- MenYo20k
- FLORES
- XL-Sum
- xP3
评估
- SIB-200 (主题分类)
- NTrex (机器翻译)
- AfriQA (跨语言问答)
评估详情
评估在 MAFAND-MT 和其他包含在训练和验证数据集中的测试部分进行。
许可
每个包含的数据集都受其各自的许可协议约束。以下是每个数据集已知的许可协议摘要:
- MAFAND-MT: [https://github.com/masakhane-io/lafand-mt/blob/main/LICENSE]
- MasakhaNER2.0: [https://huggingface.co/datasets/masakhane/masakhaner2]
- MasakaPOS: [https://github.com/masakhane-io/masakhane-pos/blob/main/LICENSE]
- MasakhaNEWS: [https://huggingface.co/datasets/masakhane/masakhanews]
- AfriSenti: [https://github.com/afrisenti-semeval/afrisent-semeval-2023]
- NollySenti: [https://github.com/IyanuSh/NollySenti]
- MenYo20k: [https://github.com/uds-lsv/menyo-20k_MT?tab=License-1-ov-file#readme]
- FLORES: [https://github.com/openlanguagedata/flores?tab=CC-BY-SA-4.0-1-ov-file#readme]
- XL-Sum: [https://huggingface.co/datasets/csebuetnlp/xlsum]
- xP3: [https://huggingface.co/datasets/bigscience/xP3]
- SIB-200: [https://github.com/dadelani/sib-200]
- NTrex: [https://github.com/MicrosoftTranslator/NTREX]
- AfriQA: [https://huggingface.co/datasets/masakhane/afriqa]
在使用 African-IT 数据集时,请确保遵守每个数据集的许可条款。
使用
African-IT 数据集旨在用于研究和教育目的。在使用此数据集时,请引用所包含的各个数据集的原始来源。
贡献
欢迎对数据集进行贡献。如果您有额外的数据集或改进建议,请提交拉取请求或联系维护者。
联系
有关 African-IT 数据集的更多信息或问题,请联系项目维护者。



