hatakeyama-llm-team/AutoGeneratedJapaneseQA
收藏Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hatakeyama-llm-team/AutoGeneratedJapaneseQA
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
license: cc-by-sa-3.0
license_name: mixed-license
dataset_info:
features:
- name: question
dtype: string
- name: database
dtype: string
- name: answer
dtype: string
- name: score
dtype: float64
splits:
- name: train
num_bytes: 261533243
num_examples: 212355
download_size: 133956678
dataset_size: 261533243
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# 自動生成Q&A
## 種々のデータソースから、[MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUF](https://huggingface.co/MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUF)を使ってQ&Aを自動生成したものです。
- CC-BY系またはApatch-2.0のデータソースを改変して生成しています。
- 元の文章との類似度(依拠性)が低くなるようにするため、元文章からランダムに部分抜粋したテキストを用いています。
- 不自然な文章も含まれているためクリーニングを推奨します。
# このデータセットのライセンス
- [cc-by-sa-3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja)
# データソースとそのライセンス
- [hpprc/wikipedia-20240101](https://huggingface.co/datasets/hpprc/jawiki) - [cc-by-sa-3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja)
- [hatakeyama-llm-team/WikiBookJa](https://huggingface.co/datasets/hatakeyama-llm-team/WikiBookJa) - [cc-by-sa-3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja)
- [kunishou/J-ResearchCorpus](https://huggingface.co/datasets/kunishou/J-ResearchCorpus) - [cc-by-4.0](https://creativecommons.org/licenses/by/4.0/deed.ja)
- [kunishou/databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja) - [cc-by-sa-3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja)
- [kunishou/oasst1-89k-ja]() - [apatche-2.0](https://www.apache.org/licenses/LICENSE-2.0)
- [sudy-super/JetCopper-10B](sudy-super/JetCopper-10B) -[apatche-2.0](https://www.apache.org/licenses/LICENSE-2.0)
提供机构:
hatakeyama-llm-team
原始信息汇总
数据集概述
数据集信息
- 语言: 日语 (ja)
- 许可证: CC-BY-SA-3.0
- 许可证名称: mixed-license
数据集特征
- 问题 (question): 字符串类型
- 数据库 (database): 字符串类型
- 答案 (answer): 字符串类型
- 分数 (score): 浮点数类型
数据集划分
- 训练集 (train):
- 数据量: 261533243 字节
- 样本数: 212355
数据集大小
- 下载大小: 133956678 字节
- 数据集大小: 261533243 字节



