five

imvladikon/QAmeleon

收藏
Hugging Face2023-08-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imvladikon/QAmeleon
下载链接
链接失效反馈
官方服务:
资源简介:
QAmeleon数据集是一个多语言问答数据集,包含阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、韩语、俄语、斯瓦希里语和泰卢固语等8种语言的数据。数据集通过使用PaLM-540B语言模型生成,每个语言仅用5个例子进行提示调优。数据集用于微调下游问答模型,以提高多语言问答的准确性。数据集包含总共47173个问答实例,分布在8种语言中。

QAmeleon数据集是一个多语言问答数据集,包含阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、韩语、俄语、斯瓦希里语和泰卢固语等8种语言的数据。数据集通过使用PaLM-540B语言模型生成,每个语言仅用5个例子进行提示调优。数据集用于微调下游问答模型,以提高多语言问答的准确性。数据集包含总共47173个问答实例,分布在8种语言中。
提供机构:
imvladikon
原始信息汇总

数据集概述

基本信息

  • 语言: 阿拉伯语 (ar), 孟加拉语 (bn), 芬兰语 (fi), 印度尼西亚语 (id), 韩语 (ko), 俄语 (ru), 斯瓦希里语 (sw), 泰卢固语 (te)
  • 许可: CC-BY-4.0
  • 数据量级: 10K<n<100K
  • 任务类别: 问答 (question-answering)

数据集详情

配置名称: ar

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 4773335
      • 样本数: 6966
  • 下载大小: 0
  • 数据集大小: 4773335

配置名称: bn

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 6458441
      • 样本数: 6084
  • 下载大小: 0
  • 数据集大小: 6458441

配置名称: default

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 32190633
      • 样本数: 47173
  • 下载大小: 16811173
  • 数据集大小: 32190633

配置名称: fi

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 2158030
      • 样本数: 5028
  • 下载大小: 0
  • 数据集大小: 2158030

配置名称: id

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 2635540
      • 样本数: 6797
  • 下载大小: 0
  • 数据集大小: 2635540

配置名称: ko

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 5074624
      • 样本数: 6471
  • 下载大小: 0
  • 数据集大小: 5074624

配置名称: ru

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 3952632
      • 样本数: 5557
  • 下载大小: 0
  • 数据集大小: 3952632

配置名称: sw

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 2113909
      • 样本数: 5597
  • 下载大小: 0
  • 数据集大小: 2113909

配置名称: te

  • 特征:
    • language: string
    • question: string
    • answer: string
    • passage: string
  • 分割:
    • train:
      • 字节数: 5024122
      • 样本数: 4673
  • 下载大小: 0
  • 数据集大小: 5024122

数据文件配置

  • 配置名称: ar
    • 分割: train
    • 路径: ar/train-*
  • 配置名称: bn
    • 分割: train
    • 路径: bn/train-*
  • 配置名称: default
    • 分割: train
    • 路径: data/train-*
  • 配置名称: fi
    • 分割: train
    • 路径: fi/train-*
  • 配置名称: id
    • 分割: train
    • 路径: id/train-*
  • 配置名称: ko
    • 分割: train
    • 路径: ko/train-*
  • 配置名称: ru
    • 分割: train
    • 路径: ru/train-*
  • 配置名称: sw
    • 分割: train
    • 路径: sw/train-*
  • 配置名称: te
    • 分割: train
    • 路径: te/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作