izumi-lab/llm-japanese-dataset-vanilla

Name: izumi-lab/llm-japanese-dataset-vanilla
Creator: izumi-lab
Published: 2024-02-17 16:17:18
License: 暂无描述

Hugging Face2024-02-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/izumi-lab/llm-japanese-dataset-vanilla

下载链接

链接失效反馈

官方服务：

资源简介：

llm-japanese-dataset-vanilla是一个用于构建日语聊天模型的数据集，主要针对日语LLM模型的聊天（Instruction）响应任务，特别是通过LoRA等技术进行微调。该数据集是从izumi-lab/llm-japanese-dataset中移除了日英翻译数据后得到的。数据集的详细信息可以参考相关的论文和GitHub链接。数据集的使用方法包括如何加载不同版本的数据集，数据集的许可证为CC-BY-SA 4.0。

提供机构：

izumi-lab

原始信息汇总

数据集概述

数据集名称

llm-japanese-dataset-vanilla

数据集描述

用于构建LLM的日语聊天数据集，从izumi-lab/llm-japanese-dataset中去除日英翻译等数据集后的版本。
主要用于日语LLM模型，针对聊天（指令）响应任务，通过LoRA等方式进行调优。

数据集语言

日语（ja）

数据集大小

1M<n<10M

数据集版本与大小

v0.1.0: 包含1,811,964条数据
v1.0.0: 包含2,515,626条数据
v1.0.2: 包含2,492,588条数据

数据集许可证

CC-BY-SA 4.0

数据集详细信息参考

日本語: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/383
英語: https://arxiv.org/abs/2305.12720
GitHub: https://github.com/masanorihirano/llm-japanese-dataset

如何使用

python from datasets import load_dataset

latest version

dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla")

v0.1.0

dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0") print(dataset.num_rows)

{train: 1811964}

v1.0.0

dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0") print(dataset.num_rows)

{train: 2515626}

5,000+

优质数据集

54 个

任务类型

进入经典数据集