ikedachin/JaQuAD_imabari_v1
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ikedachin/JaQuAD_imabari_v1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: thinking
dtype: string
- name: answer
dtype: string
- name: eval
dtype: string
- name: qa_generator
dtype: string
- name: source_files
list: string
- name: id
dtype: string
- name: messages
list:
- name: role
dtype: string
- name: content
dtype: string
splits:
- name: train
num_bytes: 4557348
num_examples: 1775
download_size: 2643260
dataset_size: 4557348
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: cc-by-sa-3.0
task_categories:
- question-answering
language:
- ja
pretty_name: JaQuAD Imabari V1
---
# JaQuAD Imabari v1
Japanese first. English below.
## 概要
**JaQuAD Imabari v1** は、`SkelterLabsInc/JaQuAD` の **context** をもとに、新たに **質問・思考過程・回答** を生成した、**1,776件** の日本語QAデータセットです。
本データセットの特徴は、**思考過程** と **最終回答** を、**愛媛県今治市の方言**で記述している点です。
標準的な日本語QAデータセットである JaQuAD の context を土台に、質問生成と、方言表現を含む推論・応答データを構築しました。
想定用途は以下の通りです。
- 方言を含む日本語LLMの学習・評価
- 推論過程付きSFTデータの作成
- 標準語入力に対する方言出力の研究
- 地域方言を反映した応答スタイルの分析
元データである `SkelterLabsInc/JaQuAD` は、日本語の質問応答データセットです。
本データセットでは、その **context** を利用して新たなQAペアと推論過程を生成しています。
---
## データ作成方法
本データセットは、元データセット `SkelterLabsInc/JaQuAD` の **context** を入力として利用し、各サンプルについて以下を新規生成しています。
1. **質問 (`question`)**
2. **思考過程 (`thinking`)**
3. **回答 (`answer`)**
4. **評価 (`eval`)**
5. **使用モデル (`qa_generator`)**
6. **メッセージ形式 (`messages`)**
生成方針は以下の通りです。
- **question**: context に基づいて新規生成
- **thinking**: context に基づき、回答に至る思考過程を生成
- **answer**: context と thinking を踏まえた最終回答を生成
- **eval**: 生成結果に対する簡易評価情報
- **qa_generator**: データ生成に使用したモデル名または識別情報
- **messages**: チャット学習用のメッセージ形式データ
- **id**: JaQuADと同じIDを継承
言語スタイルは以下の通りです。
- `question` は標準的な日本語
- `thinking` は愛媛県今治市の方言
- `answer` も愛媛県今治市の方言
---
## キー
- **id**: 元データセット JaQuAD と同じ ID を使用
- **JaQuAD の context を再利用**
- **質問・思考過程・回答を新規生成**
- **思考過程付きデータ**
- **今治方言による出力**
- **方言付き推論データとして利用可能**
特に、単に回答文だけを方言化したのではなく、**思考過程そのものを方言で記述している**点が本データセットの特徴です。
---
## フォーマット
以下は 1 レコードの例です。
```json
{
"question": "・・・?",
"thinking": "・・・今治市の方言で書かれた思考過程・・・",
"answer": "・・・今治市の方言で書かれた回答・・・",
"eval": "・・・生成結果に対する評価情報・・・",
"qa_generator": "データ合成に使ったモデル",
"messages": [
{
"role": "user",
"content": "・・・質問・・・"
},
{
"role": "assistant",
"content": "<think>・・・</think>\n・・・回答・・・"
}
]
"id": ******
}
```
## English
## Overview
**JaQuAD Imabari v1** is a Japanese QA dataset consisting of **1,776 samples**, newly generated from the **context** field of `SkelterLabsInc/JaQuAD`.
The main feature of this dataset is that both the **reasoning process** and the **final answer** are written in the **Imabari dialect** of Ehime Prefecture, Japan.
Based on the context passages from JaQuAD, we generated new questions, reasoning traces, and answers with dialectal expressions.
This dataset is intended for use cases such as:
- Training and evaluating Japanese LLMs with dialectal data
- Building SFT datasets with explicit reasoning processes
- Research on dialectal response generation from standard Japanese input
- Analysis of regional dialect styles in QA responses
The original dataset, `SkelterLabsInc/JaQuAD`, is a Japanese question answering dataset.
This dataset reuses its **context** passages and generates new QA-style samples from them.
---
## Data Creation
This dataset uses the **context** field from `SkelterLabsInc/JaQuAD` as input and newly generates the following fields for each sample:
1. **Question (`question`)**
2. **Reasoning (`thinking`)**
3. **Answer (`answer`)**
4. **Evaluation (`eval`)**
5. **Generator Model (`qa_generator`)**
6. **Chat-format Messages (`messages`)**
The generation policy is as follows:
- **id**: Uses the same ID as the original JaQuAD dataset
- **question**: newly generated from the context
- **thinking**: a reasoning process generated from the context
- **answer**: a final answer generated based on the context and thinking
- **eval**: lightweight evaluation metadata for the generated sample
- **qa_generator**: the model name or identifier used for data generation
- **messages**: chat-style formatted data for conversational training
- **id**: Uses the same ID as the original JaQuAD dataset
Language style:
- `question` is written in standard Japanese
- `thinking` is written in the Imabari dialect
- `answer` is also written in the Imabari dialect
---
## Key Features
- **Reuses JaQuAD contexts**
- **Newly generates questions, reasoning, and answers**
- **Includes explicit reasoning processes**
- **Outputs in the Imabari dialect**
- **Useful as a dialect-aware reasoning dataset**
A particularly important point is that not only the final answer, but also the **reasoning process itself** is written in dialect.
---
## Format
Below is an example of one record.
```json
{
"question": "...?",
"thinking": "...reasoning process written in the Imabari dialect...",
"answer": "...final answer written in the Imabari dialect...",
"eval": "...evaluation metadata for the generated sample...",
"qa_generator": "model used for synthetic data generation",
"messages": [
{
"role": "user",
"content": "...question..."
},
{
"role": "assistant",
"content": "<think>...</think>\n...answer..."
}
],
"id": ******
}
```
提供机构:
ikedachin



