five

hatakeyama-llm-team/AutoGeneratedJapaneseQA

收藏
Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hatakeyama-llm-team/AutoGeneratedJapaneseQA
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: cc-by-sa-3.0 license_name: mixed-license dataset_info: features: - name: question dtype: string - name: database dtype: string - name: answer dtype: string - name: score dtype: float64 splits: - name: train num_bytes: 261533243 num_examples: 212355 download_size: 133956678 dataset_size: 261533243 configs: - config_name: default data_files: - split: train path: data/train-* --- # 自動生成Q&A ## 種々のデータソースから、[MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUF](https://huggingface.co/MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUF)を使ってQ&Aを自動生成したものです。 - CC-BY系またはApatch-2.0のデータソースを改変して生成しています。 - 元の文章との類似度(依拠性)が低くなるようにするため、元文章からランダムに部分抜粋したテキストを用いています。 - 不自然な文章も含まれているためクリーニングを推奨します。 # このデータセットのライセンス - [cc-by-sa-3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja) # データソースとそのライセンス - [hpprc/wikipedia-20240101](https://huggingface.co/datasets/hpprc/jawiki) - [cc-by-sa-3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja) - [hatakeyama-llm-team/WikiBookJa](https://huggingface.co/datasets/hatakeyama-llm-team/WikiBookJa) - [cc-by-sa-3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja) - [kunishou/J-ResearchCorpus](https://huggingface.co/datasets/kunishou/J-ResearchCorpus) - [cc-by-4.0](https://creativecommons.org/licenses/by/4.0/deed.ja) - [kunishou/databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja) - [cc-by-sa-3.0](https://creativecommons.org/licenses/by-sa/3.0/deed.ja) - [kunishou/oasst1-89k-ja]() - [apatche-2.0](https://www.apache.org/licenses/LICENSE-2.0) - [sudy-super/JetCopper-10B](sudy-super/JetCopper-10B) -[apatche-2.0](https://www.apache.org/licenses/LICENSE-2.0)
提供机构:
hatakeyama-llm-team
原始信息汇总

数据集概述

数据集信息

  • 语言: 日语 (ja)
  • 许可证: CC-BY-SA-3.0
  • 许可证名称: mixed-license

数据集特征

  • 问题 (question): 字符串类型
  • 数据库 (database): 字符串类型
  • 答案 (answer): 字符串类型
  • 分数 (score): 浮点数类型

数据集划分

  • 训练集 (train):
    • 数据量: 261533243 字节
    • 样本数: 212355

数据集大小

  • 下载大小: 133956678 字节
  • 数据集大小: 261533243 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作