nguyenthanhdo/caphesuada-150k
收藏Hugging Face2023-12-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nguyenthanhdo/caphesuada-150k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为caphesuada-150k,由多个子数据集组合而成,包括ultrachat、squad_paraphrases、dolphin_cqa_long、ultra-aem、webglm、orca-unanswerable和wizard_nocode等。这些子数据集经过特定的格式化处理(zephyr_format)后,最终合并成一个包含15万条数据的数据集。数据集的构建目的是为了改进现有的问答数据集,特别是针对多源问答(MQA)和不可回答问题的处理。
该数据集名为caphesuada-150k,由多个子数据集组合而成,包括ultrachat、squad_paraphrases、dolphin_cqa_long、ultra-aem、webglm、orca-unanswerable和wizard_nocode等。这些子数据集经过特定的格式化处理(zephyr_format)后,最终合并成一个包含15万条数据的数据集。数据集的构建目的是为了改进现有的问答数据集,特别是针对多源问答(MQA)和不可回答问题的处理。
提供机构:
nguyenthanhdo
原始信息汇总
数据集概述
数据集信息
-
特征:
messages:content: 字符串类型role: 字符串类型
source: 字符串类型from: 字符串类型
-
拆分:
train:- 字节数: 586752589.0623015
- 样本数: 150000
-
下载大小: 254473617
-
数据集大小: 586752589.0623015
配置
- 配置名称: default
- 数据文件:
split: trainpath: data/train-*
- 数据文件:



