izumi-lab/llm-japanese-dataset-vanilla
收藏Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/izumi-lab/llm-japanese-dataset-vanilla
下载链接
链接失效反馈官方服务:
资源简介:
llm-japanese-dataset-vanilla是一个用于构建日语聊天模型的数据集,主要针对日语LLM模型的聊天(Instruction)响应任务,特别是通过LoRA等技术进行微调。该数据集是从izumi-lab/llm-japanese-dataset中移除了日英翻译数据后得到的。数据集的详细信息可以参考相关的论文和GitHub链接。数据集的使用方法包括如何加载不同版本的数据集,数据集的许可证为CC-BY-SA 4.0。
提供机构:
izumi-lab
原始信息汇总
数据集概述
数据集名称
- llm-japanese-dataset-vanilla
数据集描述
- 用于构建LLM的日语聊天数据集,从izumi-lab/llm-japanese-dataset中去除日英翻译等数据集后的版本。
- 主要用于日语LLM模型,针对聊天(指令)响应任务,通过LoRA等方式进行调优。
数据集语言
- 日语(ja)
数据集大小
- 1M<n<10M
数据集版本与大小
- v0.1.0: 包含1,811,964条数据
- v1.0.0: 包含2,515,626条数据
- v1.0.2: 包含2,492,588条数据
数据集许可证
- CC-BY-SA 4.0
数据集详细信息参考
- 日本語: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/383
- 英語: https://arxiv.org/abs/2305.12720
- GitHub: https://github.com/masanorihirano/llm-japanese-dataset
如何使用
python from datasets import load_dataset
latest version
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla")
v0.1.0
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0") print(dataset.num_rows)
{train: 1811964}
v1.0.0
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0") print(dataset.num_rows)



