ccw7463/Ko_QnA_ver0.4
收藏Hugging Face2024-04-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ccw7463/Ko_QnA_ver0.4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如instruction、output、input、ref、context和category。数据集分为train一个split,包含245481个样本。数据集的来源包括beomi/KoAlpaca-v1.1a、HumanF-MarkrAI/WIKI_QA_Near_dedup、squad_kor_v1等。处理步骤包括格式化更改和特定指令的移除。数据集还提供了两个示例,分别展示了simple_qna和context_qna的格式。
该数据集包含多个特征,如instruction、output、input、ref、context和category。数据集分为train一个split,包含245481个样本。数据集的来源包括beomi/KoAlpaca-v1.1a、HumanF-MarkrAI/WIKI_QA_Near_dedup、squad_kor_v1等。处理步骤包括格式化更改和特定指令的移除。数据集还提供了两个示例,分别展示了simple_qna和context_qna的格式。
提供机构:
ccw7463
原始信息汇总
数据集概述
数据集特征
- instruction:数据类型为字符串。
- output:数据类型为字符串。
- input:数据类型为字符串。
- ref:数据类型为字符串。
- context:数据类型为字符串。
- category:数据类型为字符串。
数据集划分
- train:包含245481个样本,总字节数为327432073.1375209。
数据集大小
- 下载大小:139034256字节。
- 数据集大小:327432073.1375209字节。
配置
- config_name:default
- data_files:
- split:train
- path:data/train-*
数据集内容
- simple qna:包含157469个样本。
- context qna:包含88012个样本。
参考数据源
- beomi/KoAlpaca-v1.1a:包含21155个样本。
- HumanF-MarkrAI/WIKI_QA_Near_dedup:包含137505个样本。
- squad_kor_v1:包含66181个样本。
- KLUE-benchmark/KLUE/klue-mrc-v1.1:包含21831个样本。
预处理步骤
- beomi/KoAlpaca-v1.1a:添加信息、添加答案、附加答案。
- 所有数据:更改格式。
- 所有数据:移除没有目标描述的指令。
未使用的数据源(因质量问题)
- GSON-backup/KoInstruct-QA
- juletxara/tydiqa_xtreme
- Bingsu/ko_alpaca_data
- psymon/namuwiki_alpaca_dataset
- nlpai-lab/openassistant-guanaco-ko (ccw7463/Ko_QnA_ver0.3)



