tellarin-ai/llm-japanese-dataset-vanilla-aya-format
收藏Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tellarin-ai/llm-japanese-dataset-vanilla-aya-format
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从其原始v1.0.0格式转换而来,并在此以相同的CC-BY-SA 4.0许可证和条件下发布。它包含用于LLM构建/调整的日语指令类数据。数据集仅包含一个train分割,约有2.46M行数据。格式转换的细节包括如何将原始数据集中的instruction和input列合并,并在特定情况下添加前缀句子。转换后的数据集仅使用Aya格式指定的两列:inputs和targets。
该数据集是从其原始v1.0.0格式转换而来,并在此以相同的CC-BY-SA 4.0许可证和条件下发布。它包含用于LLM构建/调整的日语指令类数据。数据集仅包含一个train分割,约有2.46M行数据。格式转换的细节包括如何将原始数据集中的instruction和input列合并,并在特定情况下添加前缀句子。转换后的数据集仅使用Aya格式指定的两列:inputs和targets。
提供机构:
tellarin-ai
原始信息汇总
数据集卡片 for llm-japanese-dataset-vanilla in the Aya 格式
数据集概述
- 语言: 日语
- 许可: CC-BY-SA 4.0
- 数据集类型: 仅包含 train 分割,约 246 万行数据
- 用途: 用于大型语言模型(LLM)的构建/调优
数据集详情
- 原始格式: 原始数据集包含三列 (instruction, input, output),其中 input 是可选的
- 转换格式: 转换后的数据集仅使用两列 (inputs, targets)
- 处理方法:
- 如果 input 内容存在,将其附加到 instruction
- 如果没有 input,附加 "次の質問に答える"(意为 "回答以下问题")
- 对于 instruction/input 作为问题,output 为简短回答的情况,在简短回答前添加 "この質問の答えは"(意为 "这个问题的答案是")
引用
-
BibTeX:
@preprint{Suzuki2023-llmvanilla, title={{From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models}}, autor={Masahiro Suzuki and Masanori Hirano and Hiroki Sakaji}, doi={10.48550/arXiv.2309.03412}, archivePrefix={arXiv}, arxivId={2309.03412}, year={2023} }



