taeshahn/ko-lima

Name: taeshahn/ko-lima
Creator: taeshahn
Published: 2024-03-01 14:01:58
License: 暂无描述

Hugging Face2024-03-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/taeshahn/ko-lima

下载链接

链接失效反馈

官方服务：

资源简介：

KoLIMA数据集是从Meta发布的LIMA数据集翻译而来的韩语数据集。翻译使用了DeepL API，并得到了SK Inc.的Tech Collaborative Lab的财务支持。数据集中保留了代码块或特殊字符之间的文本原样，未进行翻译。数据集包含1,030条训练数据和300条测试数据，总计1,330条数据。目前提供了plain和vicuna两种格式。

提供机构：

taeshahn

原始信息汇总

数据集概述

数据集名称

KoLIMA

数据集来源

基于Meta发布的LIMA: Less Is More for Alignment的学习数据，由DeepL API翻译成韩语。

数据集内容

包含train数据集1,030条和test数据集300条，总计1,330条数据。
提供plain和vicuna两种格式。

数据集结构

数据文件按训练和测试分割，路径分别为：
- train: plain/train.jsonl 和 vicuna/train.jsonl
- test: plain/test.jsonl 和 vicuna/test.jsonl

语言

韩语 (ko)

大小

1K<n<10K

许可证

CC-BY-NC-SA-4.0

使用示例

python from datasets import load_dataset ko_lima = load_dataset(taeshahn/ko-lima, plain) # 或 load_dataset(taeshahn/ko-lima) ko_lima_vicuna = load_dataset(taeshahn/ko-lima, vicuna)

引用信息

@InProceedings{kolimadataset, title = {KoLIMA: Korean LIMA Dataset for Efficient Instruction-tuning}, author = {Hahn, Taeseung}, year = {2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集