five

tellarin-ai/llm-japanese-dataset-vanilla-aya-format

收藏
Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tellarin-ai/llm-japanese-dataset-vanilla-aya-format
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从其原始v1.0.0格式转换而来,并在此以相同的CC-BY-SA 4.0许可证和条件下发布。它包含用于LLM构建/调整的日语指令类数据。数据集仅包含一个train分割,约有2.46M行数据。格式转换的细节包括如何将原始数据集中的instruction和input列合并,并在特定情况下添加前缀句子。转换后的数据集仅使用Aya格式指定的两列:inputs和targets。

该数据集是从其原始v1.0.0格式转换而来,并在此以相同的CC-BY-SA 4.0许可证和条件下发布。它包含用于LLM构建/调整的日语指令类数据。数据集仅包含一个train分割,约有2.46M行数据。格式转换的细节包括如何将原始数据集中的instruction和input列合并,并在特定情况下添加前缀句子。转换后的数据集仅使用Aya格式指定的两列:inputs和targets。
提供机构:
tellarin-ai
原始信息汇总

数据集卡片 for llm-japanese-dataset-vanilla in the Aya 格式

数据集概述

  • 语言: 日语
  • 许可: CC-BY-SA 4.0
  • 数据集类型: 仅包含 train 分割,约 246 万行数据
  • 用途: 用于大型语言模型(LLM)的构建/调优

数据集详情

  • 原始格式: 原始数据集包含三列 (instruction, input, output),其中 input 是可选的
  • 转换格式: 转换后的数据集仅使用两列 (inputs, targets)
  • 处理方法:
    • 如果 input 内容存在,将其附加到 instruction
    • 如果没有 input,附加 "次の質問に答える"(意为 "回答以下问题")
    • 对于 instruction/input 作为问题,output 为简短回答的情况,在简短回答前添加 "この質問の答えは"(意为 "这个问题的答案是")

引用

  • BibTeX:

    @preprint{Suzuki2023-llmvanilla, title={{From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models}}, autor={Masahiro Suzuki and Masanori Hirano and Hiroki Sakaji}, doi={10.48550/arXiv.2309.03412}, archivePrefix={arXiv}, arxivId={2309.03412}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作