five

ikedachin/JaQuAD_imabari_v1

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ikedachin/JaQuAD_imabari_v1
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: question dtype: string - name: thinking dtype: string - name: answer dtype: string - name: eval dtype: string - name: qa_generator dtype: string - name: source_files list: string - name: id dtype: string - name: messages list: - name: role dtype: string - name: content dtype: string splits: - name: train num_bytes: 4557348 num_examples: 1775 download_size: 2643260 dataset_size: 4557348 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-3.0 task_categories: - question-answering language: - ja pretty_name: JaQuAD Imabari V1 --- # JaQuAD Imabari v1 Japanese first. English below. ## 概要 **JaQuAD Imabari v1** は、`SkelterLabsInc/JaQuAD` の **context** をもとに、新たに **質問・思考過程・回答** を生成した、**1,776件** の日本語QAデータセットです。 本データセットの特徴は、**思考過程** と **最終回答** を、**愛媛県今治市の方言**で記述している点です。 標準的な日本語QAデータセットである JaQuAD の context を土台に、質問生成と、方言表現を含む推論・応答データを構築しました。 想定用途は以下の通りです。 - 方言を含む日本語LLMの学習・評価 - 推論過程付きSFTデータの作成 - 標準語入力に対する方言出力の研究 - 地域方言を反映した応答スタイルの分析 元データである `SkelterLabsInc/JaQuAD` は、日本語の質問応答データセットです。 本データセットでは、その **context** を利用して新たなQAペアと推論過程を生成しています。 --- ## データ作成方法 本データセットは、元データセット `SkelterLabsInc/JaQuAD` の **context** を入力として利用し、各サンプルについて以下を新規生成しています。 1. **質問 (`question`)** 2. **思考過程 (`thinking`)** 3. **回答 (`answer`)** 4. **評価 (`eval`)** 5. **使用モデル (`qa_generator`)** 6. **メッセージ形式 (`messages`)** 生成方針は以下の通りです。 - **question**: context に基づいて新規生成 - **thinking**: context に基づき、回答に至る思考過程を生成 - **answer**: context と thinking を踏まえた最終回答を生成 - **eval**: 生成結果に対する簡易評価情報 - **qa_generator**: データ生成に使用したモデル名または識別情報 - **messages**: チャット学習用のメッセージ形式データ - **id**: JaQuADと同じIDを継承 言語スタイルは以下の通りです。 - `question` は標準的な日本語 - `thinking` は愛媛県今治市の方言 - `answer` も愛媛県今治市の方言 --- ## キー - **id**: 元データセット JaQuAD と同じ ID を使用 - **JaQuAD の context を再利用** - **質問・思考過程・回答を新規生成** - **思考過程付きデータ** - **今治方言による出力** - **方言付き推論データとして利用可能** 特に、単に回答文だけを方言化したのではなく、**思考過程そのものを方言で記述している**点が本データセットの特徴です。 --- ## フォーマット 以下は 1 レコードの例です。 ```json { "question": "・・・?", "thinking": "・・・今治市の方言で書かれた思考過程・・・", "answer": "・・・今治市の方言で書かれた回答・・・", "eval": "・・・生成結果に対する評価情報・・・", "qa_generator": "データ合成に使ったモデル", "messages": [ { "role": "user", "content": "・・・質問・・・" }, { "role": "assistant", "content": "<think>・・・</think>\n・・・回答・・・" } ] "id": ****** } ``` ## English ## Overview **JaQuAD Imabari v1** is a Japanese QA dataset consisting of **1,776 samples**, newly generated from the **context** field of `SkelterLabsInc/JaQuAD`. The main feature of this dataset is that both the **reasoning process** and the **final answer** are written in the **Imabari dialect** of Ehime Prefecture, Japan. Based on the context passages from JaQuAD, we generated new questions, reasoning traces, and answers with dialectal expressions. This dataset is intended for use cases such as: - Training and evaluating Japanese LLMs with dialectal data - Building SFT datasets with explicit reasoning processes - Research on dialectal response generation from standard Japanese input - Analysis of regional dialect styles in QA responses The original dataset, `SkelterLabsInc/JaQuAD`, is a Japanese question answering dataset. This dataset reuses its **context** passages and generates new QA-style samples from them. --- ## Data Creation This dataset uses the **context** field from `SkelterLabsInc/JaQuAD` as input and newly generates the following fields for each sample: 1. **Question (`question`)** 2. **Reasoning (`thinking`)** 3. **Answer (`answer`)** 4. **Evaluation (`eval`)** 5. **Generator Model (`qa_generator`)** 6. **Chat-format Messages (`messages`)** The generation policy is as follows: - **id**: Uses the same ID as the original JaQuAD dataset - **question**: newly generated from the context - **thinking**: a reasoning process generated from the context - **answer**: a final answer generated based on the context and thinking - **eval**: lightweight evaluation metadata for the generated sample - **qa_generator**: the model name or identifier used for data generation - **messages**: chat-style formatted data for conversational training - **id**: Uses the same ID as the original JaQuAD dataset Language style: - `question` is written in standard Japanese - `thinking` is written in the Imabari dialect - `answer` is also written in the Imabari dialect --- ## Key Features - **Reuses JaQuAD contexts** - **Newly generates questions, reasoning, and answers** - **Includes explicit reasoning processes** - **Outputs in the Imabari dialect** - **Useful as a dialect-aware reasoning dataset** A particularly important point is that not only the final answer, but also the **reasoning process itself** is written in dialect. --- ## Format Below is an example of one record. ```json { "question": "...?", "thinking": "...reasoning process written in the Imabari dialect...", "answer": "...final answer written in the Imabari dialect...", "eval": "...evaluation metadata for the generated sample...", "qa_generator": "model used for synthetic data generation", "messages": [ { "role": "user", "content": "...question..." }, { "role": "assistant", "content": "<think>...</think>\n...answer..." } ], "id": ****** } ```
提供机构:
ikedachin
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作