taeshahn/ko-lima
收藏Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taeshahn/ko-lima
下载链接
链接失效反馈官方服务:
资源简介:
KoLIMA数据集是从Meta发布的LIMA数据集翻译而来的韩语数据集。翻译使用了DeepL API,并得到了SK Inc.的Tech Collaborative Lab的财务支持。数据集中保留了代码块或特殊字符之间的文本原样,未进行翻译。数据集包含1,030条训练数据和300条测试数据,总计1,330条数据。目前提供了plain和vicuna两种格式。
提供机构:
taeshahn
原始信息汇总
数据集概述
数据集名称
- KoLIMA
数据集来源
- 基于Meta发布的LIMA: Less Is More for Alignment的学习数据,由DeepL API翻译成韩语。
数据集内容
- 包含
train数据集1,030条和test数据集300条,总计1,330条数据。 - 提供
plain和vicuna两种格式。
数据集结构
- 数据文件按训练和测试分割,路径分别为:
train:plain/train.jsonl和vicuna/train.jsonltest:plain/test.jsonl和vicuna/test.jsonl
语言
- 韩语 (ko)
标签
- lima
- kolima
- korean
- instruction
大小
- 1K<n<10K
许可证
- CC-BY-NC-SA-4.0
使用示例
python from datasets import load_dataset ko_lima = load_dataset(taeshahn/ko-lima, plain) # 或 load_dataset(taeshahn/ko-lima) ko_lima_vicuna = load_dataset(taeshahn/ko-lima, vicuna)
引用信息
@InProceedings{kolimadataset, title = {KoLIMA: Korean LIMA Dataset for Efficient Instruction-tuning}, author = {Hahn, Taeseung}, year = {2023} }



