EthioNLP/Amharic_LLAMA_MT
收藏Hugging Face2025-05-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/EthioNLP/Amharic_LLAMA_MT
下载链接
链接失效反馈官方服务:
资源简介:
Walia数据集旨在通过以下方式增强Amharic语言的大型语言模型:将现有的特定任务数据集(例如情感分析、问答、命名实体识别)转换为指令格式;创建新的生成型数据集(例如诗歌生成、宗教歌词、故事生成);将英文指令数据集(例如Alpaca、Dolly)翻译成Amharic进行对比研究。每个数据点遵循结构化的指令格式,包括自然语言任务描述、可选的输入文本以及Amharic语预期输出。
The Walia dataset is designed to enhance large language models for the Amharic language by converting existing task-specific datasets into instruction format, creating new generative datasets, and translating English instruction datasets into Amharic for comparative studies. Each data point follows a structured instruction format with a natural language task description, optional input text, and expected Amharic output.
提供机构:
EthioNLP
原始信息汇总
数据集概述
数据集信息
- 语言: 包含两种语言,分别是阿姆哈拉语(am)和英语(en)。
数据集特征
- 特征名称:
- instruction
- input
- output
- prompt_header
- datasource
- 数据类型:所有特征的数据类型均为字符串(string)。
数据集划分
- 训练集:
- 示例数量: 200000
- 存储大小: 84855653 字节
- 验证集:
- 示例数量: 1994
- 存储大小: 1209980 字节
- 测试集:
- 示例数量: 2024
- 存储大小: 1306100 字节
数据集大小
- 下载大小:23384531 字节
- 数据集总大小:87371733 字节
数据文件配置
- 配置名称:default
- 数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*



