five

nguyenthanhdo/caphesuada-150k

收藏
Hugging Face2023-12-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nguyenthanhdo/caphesuada-150k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为caphesuada-150k,由多个子数据集组合而成,包括ultrachat、squad_paraphrases、dolphin_cqa_long、ultra-aem、webglm、orca-unanswerable和wizard_nocode等。这些子数据集经过特定的格式化处理(zephyr_format)后,最终合并成一个包含15万条数据的数据集。数据集的构建目的是为了改进现有的问答数据集,特别是针对多源问答(MQA)和不可回答问题的处理。

该数据集名为caphesuada-150k,由多个子数据集组合而成,包括ultrachat、squad_paraphrases、dolphin_cqa_long、ultra-aem、webglm、orca-unanswerable和wizard_nocode等。这些子数据集经过特定的格式化处理(zephyr_format)后,最终合并成一个包含15万条数据的数据集。数据集的构建目的是为了改进现有的问答数据集,特别是针对多源问答(MQA)和不可回答问题的处理。
提供机构:
nguyenthanhdo
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • messages:
      • content: 字符串类型
      • role: 字符串类型
    • source: 字符串类型
    • from: 字符串类型
  • 拆分:

    • train:
      • 字节数: 586752589.0623015
      • 样本数: 150000
  • 下载大小: 254473617

  • 数据集大小: 586752589.0623015

配置

  • 配置名称: default
    • 数据文件:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作