five

simonbutt/amharic_gsm8k

收藏
Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/simonbutt/amharic_gsm8k
下载链接
链接失效反馈
官方服务:
资源简介:
Amharic GSM8K数据集是GSM8K数据集的阿姆哈拉语翻译版本,主要用于评估阿姆哈拉语言模型在解决小学数学问题上的能力。数据集包含训练集和测试集,每个样本包含英文和阿姆哈拉语的问题和答案。数据集的创建目的是为了提供一个共同的基准和排行榜,以推动阿姆哈拉语言模型的发展。

Amharic GSM8K数据集是GSM8K数据集的阿姆哈拉语翻译版本,主要用于评估阿姆哈拉语言模型在解决小学数学问题上的能力。数据集包含训练集和测试集,每个样本包含英文和阿姆哈拉语的问题和答案。数据集的创建目的是为了提供一个共同的基准和排行榜,以推动阿姆哈拉语言模型的发展。
提供机构:
simonbutt
原始信息汇总

数据集概述

数据集名称

  • 名称: Amharic GSM8K

数据集特征

  • 特征列表:
    • question: 字符串类型
    • am_question: 字符串类型
    • answer: 字符串类型
    • am_answer: 字符串类型

数据集分割

  • 训练集:
    • 示例数量: 7473
    • 字节数: 10156876
  • 测试集:
    • 示例数量: 1319
    • 字节数: 1824682

数据集大小

  • 下载大小: 6146181字节
  • 数据集总大小: 11981558字节

语言

  • 支持语言:
    • Amharic
    • English

数据集配置

  • 配置名称: default
  • 数据文件路径:
    • 训练集: data/train-*
    • 测试集: data/test-*

许可证

  • 许可证类型: Apache-2.0

数据集类别大小

  • 大小类别: 1K<n<10K

数据集结构

  • 数据字段:
    • question: 英文问题字符串
    • answer: 英文解答字符串
    • am_question: 阿姆哈拉语翻译的问题字符串
    • am_answer: 阿姆哈拉语翻译的解答字符串

数据集用途

  • 主要用途: 评估阿姆哈拉语模型在解决小学数学问题上的表现

数据集创建

  • 来源数据: GSM8K数据集
  • 数据处理工具: 使用seamless_communication进行翻译处理

数据集限制

  • 限制: 不建议用于训练阿姆哈拉语模型,数据集规模较小,可能影响模型评估的有效性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作