five

taeshahn/ko-lima

收藏
Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taeshahn/ko-lima
下载链接
链接失效反馈
官方服务:
资源简介:
KoLIMA数据集是从Meta发布的LIMA数据集翻译而来的韩语数据集。翻译使用了DeepL API,并得到了SK Inc.的Tech Collaborative Lab的财务支持。数据集中保留了代码块或特殊字符之间的文本原样,未进行翻译。数据集包含1,030条训练数据和300条测试数据,总计1,330条数据。目前提供了plain和vicuna两种格式。
提供机构:
taeshahn
原始信息汇总

数据集概述

数据集名称

  • KoLIMA

数据集来源

数据集内容

  • 包含train数据集1,030条和test数据集300条,总计1,330条数据。
  • 提供plainvicuna两种格式。

数据集结构

  • 数据文件按训练和测试分割,路径分别为:
    • train: plain/train.jsonlvicuna/train.jsonl
    • test: plain/test.jsonlvicuna/test.jsonl

语言

  • 韩语 (ko)

标签

  • lima
  • kolima
  • korean
  • instruction

大小

  • 1K<n<10K

许可证

  • CC-BY-NC-SA-4.0

使用示例

python from datasets import load_dataset ko_lima = load_dataset(taeshahn/ko-lima, plain) # 或 load_dataset(taeshahn/ko-lima) ko_lima_vicuna = load_dataset(taeshahn/ko-lima, vicuna)

引用信息

@InProceedings{kolimadataset, title = {KoLIMA: Korean LIMA Dataset for Efficient Instruction-tuning}, author = {Hahn, Taeseung}, year = {2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作