ccw7463/Ko_QnA_ver0.3
收藏Hugging Face2024-04-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ccw7463/Ko_QnA_ver0.3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种问答类型,主要分为简单问答(simple qna)和上下文问答(context qna)。数据集包含257030个训练样本,总大小为342836577.0字节。数据集引用了多个来源,如beomi/KoAlpaca-v1.1a和nlpai-lab/openassistant-guanaco-ko等,并进行了特定的预处理,如格式化更改。某些来源如GSON-backup/KoInstruct-QA因质量问题未被使用。
该数据集包含多种问答类型,主要分为简单问答(simple qna)和上下文问答(context qna)。数据集包含257030个训练样本,总大小为342836577.0字节。数据集引用了多个来源,如beomi/KoAlpaca-v1.1a和nlpai-lab/openassistant-guanaco-ko等,并进行了特定的预处理,如格式化更改。某些来源如GSON-backup/KoInstruct-QA因质量问题未被使用。
提供机构:
ccw7463
原始信息汇总
数据集概述
数据集特征
- instruction:数据类型为字符串。
- output:数据类型为字符串。
- input:数据类型为字符串。
- ref:数据类型为字符串。
- context:数据类型为字符串。
- category:数据类型为字符串。
数据集划分
- train:包含257,030个样本,总大小为342,836,577字节。
数据集大小
- 下载大小:146,806,697字节。
- 数据集总大小:342,836,577字节。
数据集配置
- config_name:default
- data_files:
- split:train
- path:data/train-*
数据集内容
- simple qna:共169,021个样本。
- context qna:共88,012个样本。
引用数据源
- beomi/KoAlpaca-v1.1a:21,155个样本。
- nlpai-lab/openassistant-guanaco-ko:10,364个样本。
- HumanF-MarkrAI/WIKI_QA_Near_dedup:137,505个样本。
- squad_kor_v1:66,181个样本。
- KLUE-benchmark/KLUE/tree/main/klue_benchmark/klue-mrc-v1.1:21,831个样本。
数据预处理
- beomi/KoAlpaca-v1.1a:进行了额外的信息和答案处理。
- 所有数据:格式调整。
未使用的数据源
- GSON-backup/KoInstruct-QA
- juletxara/tydiqa_xtreme
- Bingsu/ko_alpaca_data
- psymon/namuwiki_alpaca_dataset
示例数据
- simple_qna:提供了一个示例,包含instruction、output、category、ref等字段。
- context_qna:提供了一个示例,包含instruction、output、category、input、ref、context等字段。



