davidkim205/kollm-converations
收藏Hugging Face2024-03-21 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/davidkim205/kollm-converations
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个以对话格式创建的集成数据集,用于SFT学习,使用了目前在HuggingFace和GitHub上可用的韩语数据集。数据集包含多个子数据集,如KoAlpaca-v1.1、kollm_kmmlu、Ko-CommonGen等,涵盖了从问答到自然语言生成等多种类型的韩语数据。
提供机构:
davidkim205
原始信息汇总
kollm Converations Dataset 概述
数据集基本信息
- 许可证: Apache-2.0
- 数据集大小: 1087781139 字节
- 下载大小: 567833382 字节
- 训练集大小: 1087781139 字节
- 训练集样本数: 1122566
数据集特征
- conversations:
- from: 数据类型为字符串
- value: 数据类型为字符串
- src: 数据类型为字符串
数据集配置
- 默认配置:
- 数据文件:
- 训练集: 路径为
data/train-*
- 训练集: 路径为
- 数据文件:
任务类别
- text-generation
语言
- ko (韩语)
包含的数据集
- KoAlpaca-v1.1
- kollm_kmmlu
- Ko-CommonGen
- kobest_hellaswag
- namuwiki-alpaca-dataset
- ko-alpaca-data
- OIG-small-chip2-ko
- humane-right-corpus-v1
- kobest_wic
- koopus100
- sentence-type
- koiwslt2017
- korean-parallel-corpora
- squad-kor-v1
- kobest_boolq
- kobest_sentineg
- kobest_copa
- kollm_paws-x
- total_kor_counsel_bot
- para_pat
- tydiqa-goldp
- tydiqa-xtreme
- korquad-chat-v1
- answerable-tydiqa
- klue-mrc
- klue-mrc-qa
- openassistant-guanaco-ko
- KOpen-platypus
- OpenOrca-ko-v3
- kowizard
- KOR-OpenOrca-Platypus-v2
- kollm_belebele
- EverythingLM-data-V2-Ko
- ko-Ultrafeedback-binarized
- KoInstruct-QA
- sharegpt-deepl-ko-translation
- ko-lima-vicuna
- KoInstruct-Base
- kollm_csatqa
- ShareGPT-74k-ko
- sharegpt-deepl-ko
未包含的数据集
- ETRI 数据集
- AIHub 数据集



