five

EP45/test

收藏
Hugging Face2023-12-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EP45/test
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: "data/train_15k.parquet" - split: test path: "data/test.parquet" --- configs: - config_name: 1k data_files: - split: train path: "data/train_1k.parquet" - split: test path: "data/test.parquet" - config_name: 5k data_files: - split: train path: "data/train_5k.parquet" - split: test path: "data/test.parquet" - config_name: 10k data_files: - split: train path: "data/train_10k.parquet" - split: test path: "data/test.parquet" - config_name: 15k data_files: - split: train path: "data/train_15k.parquet" - split: test path: "data/test.parquet" - config_name: 20k data_files: - split: train path: "data/train_20k.parquet" - split: test path: "data/test.parquet" - config_name: 30k data_files: - split: train path: "data/train_30k.parquet" - split: test path: "data/test.parquet" - config_name: 50k data_files: - split: train path: "data/train_50k.parquet" - split: test path: "data/test.parquet" # vicuna 실험용 데이터셋 다음 데이터셋으로부터 변환됨: https://huggingface.co/datasets/junelee/sharegpt_deepl_ko ## 파일구조 - converted.parquet : 원본 데이터셋의 ko_alpaca_style_dataset.json을 트레이닝에 맞도록 형식 변환 ## 라이센스 원본 데이터가 OPENAI 이기 때문에 해당 [약관](https://openai.com/policies/terms-of-use)에 따릅니다. 그 이외의 부분은 다음 라이센스를 따릅니다: 저작자표시 2.0 대한민국 (CC BY 2.0 KR)
提供机构:
EP45
原始信息汇总

数据集概述

配置详情

  • 默认配置

    • 训练集: data/train_15k.parquet
    • 测试集: data/test.parquet
  • 1k 配置

    • 训练集: data/train_1k.parquet
    • 测试集: data/test.parquet
  • 5k 配置

    • 训练集: data/train_5k.parquet
    • 测试集: data/test.parquet
  • 10k 配置

    • 训练集: data/train_10k.parquet
    • 测试集: data/test.parquet
  • 15k 配置

    • 训练集: data/train_15k.parquet
    • 测试集: data/test.parquet
  • 20k 配置

    • 训练集: data/train_20k.parquet
    • 测试集: data/test.parquet
  • 30k 配置

    • 训练集: data/train_30k.parquet
    • 测试集: data/test.parquet
  • 50k 配置

    • 训练集: data/train_50k.parquet
    • 测试集: data/test.parquet

文件结构

  • converted.parquet: 原始数据集的 ko_alpaca_style_dataset.json 转换为适合训练的格式。

许可证

  • 原始数据遵循 OPENAI 的 条款
  • 其他部分遵循以下许可证: 署名 2.0 韩国 (CC BY 2.0 KR)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作