five

izumi-lab/llm-japanese-dataset-vanilla

收藏
Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/izumi-lab/llm-japanese-dataset-vanilla
下载链接
链接失效反馈
官方服务:
资源简介:
llm-japanese-dataset-vanilla是一个用于构建日语聊天模型的数据集,主要针对日语LLM模型的聊天(Instruction)响应任务,特别是通过LoRA等技术进行微调。该数据集是从izumi-lab/llm-japanese-dataset中移除了日英翻译数据后得到的。数据集的详细信息可以参考相关的论文和GitHub链接。数据集的使用方法包括如何加载不同版本的数据集,数据集的许可证为CC-BY-SA 4.0。
提供机构:
izumi-lab
原始信息汇总

数据集概述

数据集名称

  • llm-japanese-dataset-vanilla

数据集描述

  • 用于构建LLM的日语聊天数据集,从izumi-lab/llm-japanese-dataset中去除日英翻译等数据集后的版本。
  • 主要用于日语LLM模型,针对聊天(指令)响应任务,通过LoRA等方式进行调优。

数据集语言

  • 日语(ja)

数据集大小

  • 1M<n<10M

数据集版本与大小

  • v0.1.0: 包含1,811,964条数据
  • v1.0.0: 包含2,515,626条数据
  • v1.0.2: 包含2,492,588条数据

数据集许可证

  • CC-BY-SA 4.0

数据集详细信息参考

如何使用

python from datasets import load_dataset

latest version

dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla")

v0.1.0

dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0") print(dataset.num_rows)

{train: 1811964}

v1.0.0

dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0") print(dataset.num_rows)

{train: 2515626}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作