toshi456/Rakuten-Alpaca-Data-32K
收藏Hugging Face2024-04-01 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/toshi456/Rakuten-Alpaca-Data-32K
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- question-answering
language:
- ja
size_categories:
- 10K<n<100K
---
# Dataset Card for "Rakuten-Alpaca-Data-32K"
## Dataset Detail
**Dataset Type:** Rakuten-Alpaca-Data-32Kは[Stanford Alpaca](https://crfm.stanford.edu/2023/03/13/alpaca.html)の手法を参考に[Rakuten/RakutenAI-7B-chat](https://huggingface.co/Rakuten/RakutenAI-7B-chat)を使用して自動生成した日本語インストラクションデータです。
データ生成を行う際のSEEDデータには有志の方々が作成した[seed_tasks_japanese.jsonl](https://github.com/JohnKeigo/stanford_alpaca/blob/main/seed_tasks_japanese.jsonl)を利用させていただきました。
データの品質が低いため、何かしらの方法でフィルタリングして有益なデータのみ利用するのをおすすめします。
**License:** [Apache license 2.0](https://www.apache.org/licenses/LICENSE-2.0)
## Acknowledgement
- [Stanford Alpaca](https://crfm.stanford.edu/2023/03/13/alpaca.html)
- [Rakuten](https://huggingface.co/Rakuten)
- [seed_tasks_japanese.jsonl](https://github.com/JohnKeigo/stanford_alpaca/blob/main/seed_tasks_japanese.jsonl)
提供机构:
toshi456
原始信息汇总
数据集概述
数据集名称
Rakuten-Alpaca-Data-32K
数据集类型
该数据集是通过参考Stanford Alpaca的方法,并使用Rakuten/RakutenAI-7B-chat自动生成的日语指令数据。
数据来源
数据生成过程中使用的SEED数据是志愿者创建的seed_tasks_japanese.jsonl。
数据质量
由于数据质量较低,建议通过某种方法过滤,仅使用有益的数据。
许可协议
Apache License 2.0
语言
日语
任务类别
问答
数据集大小
10K<n<100K



