five

davidkim205/kollm-converations

收藏
Hugging Face2024-03-21 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/davidkim205/kollm-converations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个以对话格式创建的集成数据集,用于SFT学习,使用了目前在HuggingFace和GitHub上可用的韩语数据集。数据集包含多个子数据集,如KoAlpaca-v1.1、kollm_kmmlu、Ko-CommonGen等,涵盖了从问答到自然语言生成等多种类型的韩语数据。
提供机构:
davidkim205
原始信息汇总

kollm Converations Dataset 概述

数据集基本信息

  • 许可证: Apache-2.0
  • 数据集大小: 1087781139 字节
  • 下载大小: 567833382 字节
  • 训练集大小: 1087781139 字节
  • 训练集样本数: 1122566

数据集特征

  • conversations:
    • from: 数据类型为字符串
    • value: 数据类型为字符串
  • src: 数据类型为字符串

数据集配置

  • 默认配置:
    • 数据文件:
      • 训练集: 路径为 data/train-*

任务类别

  • text-generation

语言

  • ko (韩语)

包含的数据集

  • KoAlpaca-v1.1
  • kollm_kmmlu
  • Ko-CommonGen
  • kobest_hellaswag
  • namuwiki-alpaca-dataset
  • ko-alpaca-data
  • OIG-small-chip2-ko
  • humane-right-corpus-v1
  • kobest_wic
  • koopus100
  • sentence-type
  • koiwslt2017
  • korean-parallel-corpora
  • squad-kor-v1
  • kobest_boolq
  • kobest_sentineg
  • kobest_copa
  • kollm_paws-x
  • total_kor_counsel_bot
  • para_pat
  • tydiqa-goldp
  • tydiqa-xtreme
  • korquad-chat-v1
  • answerable-tydiqa
  • klue-mrc
  • klue-mrc-qa
  • openassistant-guanaco-ko
  • KOpen-platypus
  • OpenOrca-ko-v3
  • kowizard
  • KOR-OpenOrca-Platypus-v2
  • kollm_belebele
  • EverythingLM-data-V2-Ko
  • ko-Ultrafeedback-binarized
  • KoInstruct-QA
  • sharegpt-deepl-ko-translation
  • ko-lima-vicuna
  • KoInstruct-Base
  • kollm_csatqa
  • ShareGPT-74k-ko
  • sharegpt-deepl-ko

未包含的数据集

  • ETRI 数据集
  • AIHub 数据集
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作