imvladikon/QAmeleon
收藏Hugging Face2023-08-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imvladikon/QAmeleon
下载链接
链接失效反馈官方服务:
资源简介:
QAmeleon数据集是一个多语言问答数据集,包含阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、韩语、俄语、斯瓦希里语和泰卢固语等8种语言的数据。数据集通过使用PaLM-540B语言模型生成,每个语言仅用5个例子进行提示调优。数据集用于微调下游问答模型,以提高多语言问答的准确性。数据集包含总共47173个问答实例,分布在8种语言中。
QAmeleon数据集是一个多语言问答数据集,包含阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、韩语、俄语、斯瓦希里语和泰卢固语等8种语言的数据。数据集通过使用PaLM-540B语言模型生成,每个语言仅用5个例子进行提示调优。数据集用于微调下游问答模型,以提高多语言问答的准确性。数据集包含总共47173个问答实例,分布在8种语言中。
提供机构:
imvladikon
原始信息汇总
数据集概述
基本信息
- 语言: 阿拉伯语 (ar), 孟加拉语 (bn), 芬兰语 (fi), 印度尼西亚语 (id), 韩语 (ko), 俄语 (ru), 斯瓦希里语 (sw), 泰卢固语 (te)
- 许可: CC-BY-4.0
- 数据量级: 10K<n<100K
- 任务类别: 问答 (question-answering)
数据集详情
配置名称: ar
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 4773335
- 样本数: 6966
- train:
- 下载大小: 0
- 数据集大小: 4773335
配置名称: bn
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 6458441
- 样本数: 6084
- train:
- 下载大小: 0
- 数据集大小: 6458441
配置名称: default
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 32190633
- 样本数: 47173
- train:
- 下载大小: 16811173
- 数据集大小: 32190633
配置名称: fi
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 2158030
- 样本数: 5028
- train:
- 下载大小: 0
- 数据集大小: 2158030
配置名称: id
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 2635540
- 样本数: 6797
- train:
- 下载大小: 0
- 数据集大小: 2635540
配置名称: ko
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 5074624
- 样本数: 6471
- train:
- 下载大小: 0
- 数据集大小: 5074624
配置名称: ru
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 3952632
- 样本数: 5557
- train:
- 下载大小: 0
- 数据集大小: 3952632
配置名称: sw
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 2113909
- 样本数: 5597
- train:
- 下载大小: 0
- 数据集大小: 2113909
配置名称: te
- 特征:
- language: string
- question: string
- answer: string
- passage: string
- 分割:
- train:
- 字节数: 5024122
- 样本数: 4673
- train:
- 下载大小: 0
- 数据集大小: 5024122
数据文件配置
- 配置名称: ar
- 分割: train
- 路径: ar/train-*
- 配置名称: bn
- 分割: train
- 路径: bn/train-*
- 配置名称: default
- 分割: train
- 路径: data/train-*
- 配置名称: fi
- 分割: train
- 路径: fi/train-*
- 配置名称: id
- 分割: train
- 路径: id/train-*
- 配置名称: ko
- 分割: train
- 路径: ko/train-*
- 配置名称: ru
- 分割: train
- 路径: ru/train-*
- 配置名称: sw
- 分割: train
- 路径: sw/train-*
- 配置名称: te
- 分割: train
- 路径: te/train-*



