five

wisenut-nlp-team/llama_ko_qa

收藏
Hugging Face2024-04-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/wisenut-nlp-team/llama_ko_qa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集,每个子集针对不同的任务和领域。具体包括:1) 行政文档的机器阅读理解数据;2) 图书资料的机器阅读理解数据;3) 数字运算的机器阅读理解数据;4) 基于Ko Wiki的问答数据;5) 一般常识的问答数据;6) Kor_Squad问答数据;7) 表格信息问答数据(提取型)。每个子集都有相应的训练数据,数据量从66.1k到720k不等。

该数据集包含多个子集,每个子集针对不同的任务和领域。具体包括:1) 行政文档的机器阅读理解数据;2) 图书资料的机器阅读理解数据;3) 数字运算的机器阅读理解数据;4) 基于Ko Wiki的问答数据;5) 一般常识的问答数据;6) Kor_Squad问答数据;7) 表格信息问答数据(提取型)。每个子集都有相应的训练数据,数据量从66.1k到720k不等。
提供机构:
wisenut-nlp-team
原始信息汇总

数据集概述

1. 数据集配置名称:admin

  • 特征
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集
    • 字节数: 563415884
    • 示例数: 315745
    • 下载大小: 331463546
    • 数据集大小: 563415884

2. 数据集配置名称:books

  • 特征
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集
    • 字节数: 129464228
    • 示例数: 85511
    • 下载大小: 77729831
    • 数据集大小: 129464228

3. 数据集配置名称:calc

  • 特征
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集
    • 字节数: 146614073
    • 示例数: 100000
    • 下载大小: 87436329
    • 数据集大小: 146614073

4. 数据集配置名称:closed_book

  • 特征
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集
    • 字节数: 145156931
    • 示例数: 137505
    • 下载大小: 87384523
    • 数据集大小: 145156931

5. 数据集配置名称:commonsense

  • 特征
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集
    • 字节数: 114321297
    • 示例数: 93814
    • 下载大小: 73885409
    • 数据集大小: 114321297

6. 数据集配置名称:korsquad

  • 特征
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集
    • 字节数: 97521500
    • 示例数: 66074
    • 下载大小: 16165226
    • 数据集大小: 97521500

7. 数据集配置名称:table_qa_html

  • 特征
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集
    • 字节数: 1388078453.661607
    • 示例数: 719993
    • 下载大小: 200087467
    • 数据集大小: 1388078453.661607

8. 数据集配置名称:table_qa_- 特征

  • instruction: 字符串
  • input: 字符串
  • output: 字符串
  • 训练集
    • 字节数: 1100213029
    • 示例数: 719993
    • 下载大小: 187695569
    • 数据集大小: 1100213029
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作