EthioNLP/Amharic_LLAMA_MT

Name: EthioNLP/Amharic_LLAMA_MT
Creator: EthioNLP
Published: 2025-05-30 13:14:21
License: 暂无描述

Hugging Face2025-05-30 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/EthioNLP/Amharic_LLAMA_MT

下载链接

链接失效反馈

官方服务：

资源简介：

Walia数据集旨在通过以下方式增强Amharic语言的大型语言模型：将现有的特定任务数据集（例如情感分析、问答、命名实体识别）转换为指令格式；创建新的生成型数据集（例如诗歌生成、宗教歌词、故事生成）；将英文指令数据集（例如Alpaca、Dolly）翻译成Amharic进行对比研究。每个数据点遵循结构化的指令格式，包括自然语言任务描述、可选的输入文本以及Amharic语预期输出。

The Walia dataset is designed to enhance large language models for the Amharic language by converting existing task-specific datasets into instruction format, creating new generative datasets, and translating English instruction datasets into Amharic for comparative studies. Each data point follows a structured instruction format with a natural language task description, optional input text, and expected Amharic output.

提供机构：

EthioNLP

原始信息汇总

数据集概述

数据集信息

语言: 包含两种语言，分别是阿姆哈拉语（am）和英语（en）。

数据集特征

特征名称：
- instruction
- input
- output
- prompt_header
- datasource
数据类型：所有特征的数据类型均为字符串（string）。

数据集划分

训练集：
- 示例数量: 200000
- 存储大小: 84855653 字节
验证集：
- 示例数量: 1994
- 存储大小: 1209980 字节
测试集：
- 示例数量: 2024
- 存储大小: 1306100 字节

数据集大小

下载大小：23384531 字节
数据集总大小：87371733 字节

数据文件配置

配置名称：default
数据文件路径：
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集