hatakeyama-llm-team/AutoGeneratedJapaneseQA-CC
收藏Hugging Face2024-05-19 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/hatakeyama-llm-team/AutoGeneratedJapaneseQA-CC
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
dataset_info:
features:
- name: question
dtype: string
- name: database
dtype: string
- name: answer
dtype: string
- name: score
dtype: float64
splits:
- name: train
num_bytes: 72604763
num_examples: 53950
download_size: 33076454
dataset_size: 72604763
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# 自動生成Q&A
## データソースから、[MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUF](https://huggingface.co/MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUF)を使ってQ&Aを自動生成したものです。
- Common Crawlをもとに生成しています。 [Common Crawl terms of use](https://commoncrawl.org/terms-of-use)に従ってご利用ください。
- 元の文章との類似度(依拠性)が低くなるようにするため、元文章からランダムに部分抜粋したテキストを用いています。
- 不自然な文章も含まれているためクリーニングを推奨します。
提供机构:
hatakeyama-llm-team
原始信息汇总
数据集概述
数据集信息
- 语言: 日语 (ja)
- 特征:
- question: 数据类型为字符串
- database: 数据类型为字符串
- answer: 数据类型为字符串
- score: 数据类型为浮点数 (float64)
数据集划分
- 训练集 (train):
- 数据量: 72,604,763 字节
- 样本数: 53,950
数据集大小
- 下载大小: 33,076,454 字节
- 数据集大小: 72,604,763 字节
配置
- 默认配置 (default):
- 数据文件路径:
data/train-*
- 数据文件路径:



