tellarin-ai/llm-japanese-dataset-vanilla-aya-format

Name: tellarin-ai/llm-japanese-dataset-vanilla-aya-format
Creator: tellarin-ai
Published: 2024-01-31 14:27:56
License: 暂无描述

Hugging Face2024-01-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tellarin-ai/llm-japanese-dataset-vanilla-aya-format

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从其原始v1.0.0格式转换而来，并在此以相同的CC-BY-SA 4.0许可证和条件下发布。它包含用于LLM构建/调整的日语指令类数据。数据集仅包含一个train分割，约有2.46M行数据。格式转换的细节包括如何将原始数据集中的instruction和input列合并，并在特定情况下添加前缀句子。转换后的数据集仅使用Aya格式指定的两列：inputs和targets。

提供机构：

tellarin-ai

原始信息汇总

数据集卡片 for llm-japanese-dataset-vanilla in the Aya 格式

数据集概述

语言: 日语
许可: CC-BY-SA 4.0
数据集类型: 仅包含 train 分割，约 246 万行数据
用途: 用于大型语言模型（LLM）的构建/调优

数据集详情

原始格式: 原始数据集包含三列 (instruction, input, output)，其中 input 是可选的
转换格式: 转换后的数据集仅使用两列 (inputs, targets)
处理方法:
- 如果 input 内容存在，将其附加到 instruction
- 如果没有 input，附加 "次の質問に答える"（意为 "回答以下问题"）
- 对于 instruction/input 作为问题，output 为简短回答的情况，在简短回答前添加 "この質問の答えは"（意为 "这个问题的答案是"）

引用

BibTeX:

@preprint{Suzuki2023-llmvanilla, title={{From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models}}, autor={Masahiro Suzuki and Masanori Hirano and Hiroki Sakaji}, doi={10.48550/arXiv.2309.03412}, archivePrefix={arXiv}, arxivId={2309.03412}, year={2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集