five

EthioNLP/Amharic_LLAMA_MT

收藏
Hugging Face2025-05-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/EthioNLP/Amharic_LLAMA_MT
下载链接
链接失效反馈
官方服务:
资源简介:
Walia数据集旨在通过以下方式增强Amharic语言的大型语言模型:将现有的特定任务数据集(例如情感分析、问答、命名实体识别)转换为指令格式;创建新的生成型数据集(例如诗歌生成、宗教歌词、故事生成);将英文指令数据集(例如Alpaca、Dolly)翻译成Amharic进行对比研究。每个数据点遵循结构化的指令格式,包括自然语言任务描述、可选的输入文本以及Amharic语预期输出。

The Walia dataset is designed to enhance large language models for the Amharic language by converting existing task-specific datasets into instruction format, creating new generative datasets, and translating English instruction datasets into Amharic for comparative studies. Each data point follows a structured instruction format with a natural language task description, optional input text, and expected Amharic output.
提供机构:
EthioNLP
原始信息汇总

数据集概述

数据集信息

  • 语言: 包含两种语言,分别是阿姆哈拉语(am)和英语(en)。

数据集特征

  • 特征名称
    • instruction
    • input
    • output
    • prompt_header
    • datasource
  • 数据类型:所有特征的数据类型均为字符串(string)。

数据集划分

  • 训练集
    • 示例数量: 200000
    • 存储大小: 84855653 字节
  • 验证集
    • 示例数量: 1994
    • 存储大小: 1209980 字节
  • 测试集
    • 示例数量: 2024
    • 存储大小: 1306100 字节

数据集大小

  • 下载大小:23384531 字节
  • 数据集总大小:87371733 字节

数据文件配置

  • 配置名称:default
  • 数据文件路径
    • 训练集: data/train-*
    • 验证集: data/validation-*
    • 测试集: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作