swallow-gemma-magpie-v0.1
收藏魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/tokyotech-llm/swallow-gemma-magpie-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
## 📰 News
* **[07/01/2025]** Release of the first unfiltered version of the dataset containing **148k** pairs.
## Dataset Summary
**Swallow-Gemma-Magpie-v0.1** is a synthetic instruction tuning dataset that consists of multiple category Japanese question-answering tasks.
It consists of **148k** question-answering-samples, generated with [google/gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it).
Part of Swallow-Gemma-Magpie-v0.1 is a subset of instruction tuning data for training [tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3), [tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3), [tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2).
## Dataset Pipeline
Swallow-Gemma-Magpie-v0.1 is generated with [google/gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it).
The question-answering pairs are generated by giving various prompts to generate question-answering on specific subjects such as macroeconomics, insurance, high school chemistry, etc.
The data generated with [Magpie](https://arxiv.org/abs/2406.08464) usually struggles with less diversity, so our pipeline needs user prompts in order to control the content of the synthetic data.
The generated pairs are scored with gemma-2-27b-it from 1-10 in terms of **usefulness**, **relevance**, **accuracy**, **depth**, **creativity**,and **detail**.
## Dataset columns
```python
{
"scores": list,
"scoring_model": str,
"input": dict,
"output": dict,
"judge": str,
"text": str,
}
```
example
```json
{
"scores": {
"overall": 8,
"usefulness": 9,
"relevance": 10,
"accuracy": 9,
"depth": 8,
"creativity": 6,
"detail": 8
},
"scoring_model": "/groups/gag51395/hf-checkpoints/gemma-2-27b-it/",
"input": {
"role": "user",
"content": "物理シミュレーションに関する質問:\n\n**重力と磁場の類似点と相違点について説明してください。**\n\n\n"
},
"output": {
"role": "assistant",
"content": "## 重力と磁場の類似点と相違点\n\n重力と磁場はどちらも、力場であり、物体に力を及ぼす現象です。しかし、その性質にはいくつかの類似点と相違点があります。\n\n**類似点:**\n\n* **力場:** どちらも空
間内に存在する力場であり、物体はその場に存在するだけで力を受ける。\n* **距離の法則:** どちらも距離の2乗に反比例する力が働く。つまり、距離が2倍になると力は4分の1になる。\n* **場を可視化:** どちらも磁力線や重
力場線で可視化できる。\n\n**相違点:**\n\n* **発生源:**\n * **重力:** 質量を持つ物体によって発生する。\n * **磁場:** 電気荷の動き、つまり電流によって発生する。\n* **極性:**\n * **重力:** 極性がなく、
常に引力のみ働く。\n * **磁場:** 北極と南極の2種類の極を持つ。同じ極同士は反発し、反対の極同士は引き合う。\n* **遮蔽:**\n * **重力:** 遮蔽できない。\n * **磁場:** 磁性体によって遮蔽できる。\n* **強
さ:**\n * **重力:** 相対的に弱い。\n * **磁場:** 相対的に強い。\n\n**まとめ:**\n\n重力と磁場はどちらも力場であり、類似点も多いですが、発生源、極性、遮蔽可能性、強さなどの点で重要な相違点があります。\n\n
## 補足\n\n* 重力は宇宙で最も支配的な力であり、惑星の軌道や星の形成などに大きな役割を果たしています。\n* 磁場は地球の磁場のように、宇宙からの有害な放射線を遮断する役割を担っています。また、モーターや発電機な
どの技術にも利用されています。\n"
},
"judge": "[指示]\n公平な判断者として行動し、以下に表示されるユーザーの質問に対するAIアシスタントの応答の品質を評価してください。あなたの評価は、応答の有用性、関連性、正確性、深さ、創造性、詳細度などの要素を
考慮してそれぞれの点数と総合評価を示してください。AIアシスタントの返答の言語は、ユーザーが使用している言語と一致しているべきで、そうでない場合は減点されるべきです。評価は短い説明から始めてください。できるだけ
客観的であること。説明を提供した後、**総合評価: 7/10** のようなフォーマットに厳密に従って1から10までのスケールで応答を評価する必要があります:\n\n[評価対象]\nuser:物理シミュレーションに関する質問:\n\n**重力
と磁場の類似点と相違点について説明してください。**\n\n\n\n\nassistant:## 重力と磁場の類似点と相違点\n\n重力と磁場はどちらも、力場であり、物体に力を及ぼす現象です。しかし、その性質にはいくつかの類似点と相違点
があります。\n\n**類似点:**\n\n* **力場:** どちらも空間内に存在する力場であり、物体はその場に存在するだけで力を受ける。\n* **距離の法則:** どちらも距離の2乗に反比例する力が働く。つまり、距離が2倍になると力は
4分の1になる。\n* **場を可視化:** どちらも磁力線や重力場線で可視化できる。\n\n**相違点:**\n\n* **発生源:**\n * **重力:** 質量を持つ物体によって発生する。\n * **磁場:** 電気荷の動き、つまり電流によって
発生する。\n* **極性:**\n * **重力:** 極性がなく、常に引力のみ働く。\n * **磁場:** 北極と南極の2種類の極を持つ。同じ極同士は反発し、反対の極同士は引き合う。\n* **遮蔽:**\n * **重力:** 遮蔽できない。
\n * **磁場:** 磁性体によって遮蔽できる。\n* **強さ:**\n * **重力:** 相対的に弱い。\n * **磁場:** 相対的に強い。\n\n**まとめ:**\n\n重力と磁場はどちらも力場であり、類似点も多いですが、発生源、極性、遮
蔽可能性、強さなどの点で重要な相違点があります。\n\n## 補足\n\n* 重力は宇宙で最も支配的な力であり、惑星の軌道や星の形成などに大きな役割を果たしています。\n* 磁場は地球の磁場のように、宇宙からの有害な放射線を
遮断する役割を担っています。また、モーターや発電機などの技術にも利用されています。\n",
"text": "user: 物理シミュレーションに関する質問:\n\n**重力と磁場の類似点と相違点について説明してください。**\n\n\n\n\nassistant: ## 重力と磁場の類似点と相違点\n\n重力と磁場はどちらも、力場であり、物体に力
を及ぼす現象です。しかし、その性質にはいくつかの類似点と相違点があります。\n\n**類似点:**\n\n* **力場:** どちらも空間内に存在する力場であり、物体はその場に存在するだけで力を受ける。\n* **距離の法則:** どちら
も距離の2乗に反比例する力が働く。つまり、距離が2倍になると力は4分の1になる。\n* **場を可視化:** どちらも磁力線や重力場線で可視化できる。\n\n**相違点:**\n\n* **発生源:**\n * **重力:** 質量を持つ物体によっ
て発生する。\n * **磁場:** 電気荷の動き、つまり電流によって発生する。\n* **極性:**\n * **重力:** 極性がなく、常に引力のみ働く。\n * **磁場:** 北極と南極の2種類の極を持つ。同じ極同士は反発し、反対の
極同士は引き合う。\n* **遮蔽:**\n * **重力:** 遮蔽できない。\n * **磁場:** 磁性体によって遮蔽できる。\n* **強さ:**\n * **重力:** 相対的に弱い。\n * **磁場:** 相対的に強い。\n\n**まとめ:**\n\n重力
と磁場はどちらも力場であり、類似点も多いですが、発生源、極性、遮蔽可能性、強さなどの点で重要な相違点があります。\n\n## 補足\n\n* 重力は宇宙で最も支配的な力であり、惑星の軌道や星の形成などに大きな役割を果たし
ています。\n* 磁場は地球の磁場のように、宇宙からの有害な放射線を遮断する役割を担っています。また、モーターや発電機などの技術にも利用されています。\n"
}
```
## Limitation
* This is an unfiltered version of the dataset; we will soon release a filtered version (smaller).
* The category of the question-answering is probably unbalanced.
## References
```
@misc{fujii2024swallowgemmamagpie,
author = { Kazuki Fujii, Rio Yokota },
title = { Swallow-Gemma-Magpie },
year = 2024,
url = { https://huggingface.co/datasets/tokyotech-llm/swallow-gemma-magpie-v0.1 },
publisher = { Swallow Project }
}
```
## 📰 资讯
* **[2025年7月1日]** 本数据集首个无过滤版本正式发布,共包含**14.8万**条问答对。
## 数据集概览
**Swallow-Gemma-Magpie-v0.1** 是一款合成式指令微调数据集,涵盖多类别日语问答任务。该数据集共包含**14.8万**条问答样本,由[google/gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it)生成。
本数据集的部分子集可作为指令微调数据,用于训练[tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3)、[tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3)以及[tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2)。
## 数据集生成流程
Swallow-Gemma-Magpie-v0.1 由[google/gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it)生成。问答对的生成方式为:针对宏观经济学、保险学、高中化学等特定主题,通过多样化提示词生成对应问答内容。
由于基于[Magpie](https://arxiv.org/abs/2406.08464)生成的数据集通常存在多样性不足的问题,因此本流程引入用户提示词以可控化合成数据的内容。生成的问答对将由gemma-2-27b-it基于**实用性**、**相关性**、**准确性**、**深度**、**创造性**与**细节丰富度**六个维度进行1至10分的评分。
## 数据集字段
python
{
"scores": list,
"scoring_model": str,
"input": dict,
"output": dict,
"judge": str,
"text": str,
}
### 示例
json
{
"scores": {
"overall": 8,
"usefulness": 9,
"relevance": 10,
"accuracy": 9,
"depth": 8,
"creativity": 6,
"detail": 8
},
"scoring_model": "/groups/gag51395/hf-checkpoints/gemma-2-27b-it/",
"input": {
"role": "user",
"content": "物理シミュレーションに関する質問:
**重力と磁場の類似点と相違点について説明してください。**
"
},
"output": {
"role": "assistant",
"content": "## 重力と磁場の類似点と相違点
重力と磁場はどちらも、力場であり、物体に力を及ぼす現象です。しかし、その性質にはいくつかの類似点と相違点があります。
**類似点:**
* **力場:** どちらも空間内に存在する力場であり、物体はその場に存在するだけで力を受ける。
* **距離の法則:** どちらも距離の2乗に反比例する力が働く。つまり、距離が2倍になると力は4分の1になる。
* **場を可視化:** どちらも磁力線や重力場線で可視化できる。
**相違点:**
* **発生源:**
* **重力:** 質量を持つ物体によって発生する。
* **磁場:** 電気荷の動き、つまり電流によって発生する。
* **極性:**
* **重力:** 極性がなく、常に引力のみ働く。
* **磁場:** 北極と南極の2種類の極を持つ。同じ極同士は反発し、反対の極同士は引き合う。
* **遮蔽:**
* **重力:** 遮蔽できない。
* **磁場:** 磁性体によって遮蔽できる。
* **強さ:**
* **重力:** 相対的に弱い。
* **磁場:** 相対的に強い。
**まとめ:**
重力と磁場はどちらも力場であり、類似点も多いですが、発生源、極性、遮蔽可能性、強さなどの点で重要な相違点があります。
## 補足
* 重力は宇宙で最も支配的な力であり、惑星の軌道や星の形成などに大きな役割を果たしています。
* 磁場は地球の磁場のように、宇宙からの有害な放射線を遮断する役割を担っています。また、モーターや発電機などの技術にも利用されています。
"
},
"judge": "[指示]
公平な判断者として行動し、以下に表示されるユーザーの質問に対するAIアシスタントの応答の品質を評価してください。あなたの評価は、応答の有用性、関連性、正確性、深さ、創造性、詳細度などの要素を考慮してそれぞれの点数と総合評価を示してください。AIアシスタントの返答の言語は、ユーザーが使用している言語と一致しているべきで、そうでない場合は減点されるべきです。評価は短い説明から始めてください。できるだけ客観的であること。説明を提供した後、**総合評価: 7/10** のようなフォーマットに厳密に従って1から10までのスケールで応答を評価する必要があります:
[評価対象]
user:物理シミュレーションに関する質問:
**重力と磁場の類似点と相違点について説明してください。**
assistant:## 重力と磁場の類似点と相違点
重力と磁場はどちらも、力場であり、物体に力を及ぼす現象です。しかし、その性質にはいくつかの類似点と相違点があります。
**類似点:**
* **力場:** どちらも空間内に存在する力場であり、物体はその場に存在するだけで力を受ける。
* **距離の法則:** どちらも距離の2乗に反比例する力が働く。つまり、距離が2倍になると力は4分の1になる。
* **場を可視化:** どちらも磁力線や重力場線で可視化できる。
**相違点:**
* **発生源:**
* **重力:** 質量を持つ物体によって発生する。
* **磁場:** 電気荷の動き、つまり電流によって発生する。
* **極性:**
* **重力:** 極性がなく、常に引力のみ働く。
* **磁場:** 北極と南極の2種類の極を持つ。同じ極同士は反発し、反対の極同士は引き合う。
* **遮蔽:**
* **重力:** 遮蔽できない。
* **磁場:** 磁性体によって遮蔽できる。
* **強さ:**
* **重力:** 相対的に弱い。
* **磁場:** 相対的に強い。
**まとめ:**
重力と磁場はどちらも力場であり、類似点も多いですが、発生源、極性、遮蔽可能性、強さなどの点で重要な相違点があります。
## 補足
* 重力は宇宙で最も支配的な力であり、惑星の軌道や星の形成などに大きな役割を果たしています。
* 磁場は地球の磁場のように、宇宙からの有害な放射線を遮断する役割を担っています。また、モーターや発電機などの技術にも利用されています。
",
"text": "user: 物理シミュレーションに関する質問:
**重力と磁場の類似点と相違点について説明してください。**
assistant: ## 重力と磁場の類似点と相違点
重力と磁場はどちらも、力場であり、物体に力を及ぼす現象です。しかし、その性質にはいくつかの類似点と相違点があります。
**類似点:**
* **力場:** どちらも空間内に存在する力場であり、物体はその場に存在するだけで力を受ける。
* **距離の法則:** どちらも距離の2乗に反比例する力が働く。つまり、距離が2倍になると力は4分の1になる。
* **場を可視化:** どちらも磁力線や重力場線で可視化できる。
**相違点:**
* **発生源:**
* **重力:** 質量を持つ物体によって発生する。
* **磁場:** 電気荷の動き、つまり電流によって発生する。
* **極性:**
* **重力:** 極性がなく、常に引力のみ働く。
* **磁場:** 北極と南極の2種類の極を持つ。同じ極同士は反発し、反対の極同士は引き合う。
* **遮蔽:**
* **重力:** 遮蔽できない。
* **磁場:** 磁性体によって遮蔽できる。
* **強さ:**
* **重力:** 相対的に弱い。
* **磁場:** 相対的に強い。
**まとめ:**
重力と磁場はどちらも力場であり、類似点も多いですが、発生源、極性、遮蔽可能性、強さなどの点で重要な相違点があります。
## 補足
* 重力は宇宙で最も支配的な力であり、惑星の軌道や星の形成などに大きな役割を果たしています。
* 磁場は地球の磁場のように、宇宙からの有害な放射線を遮断する役割を担っています。また、モーターや発電機などの技術にも利用されています。
"
}
## 局限性说明
1. 本数据集为无过滤版本,后续将发布体量更小的过滤版本;
2. 问答任务的类别分布可能存在不均衡问题。
## 参考文献
@misc{fujii2024swallowgemmamagpie,
author = { Kazuki Fujii, Rio Yokota },
title = { Swallow-Gemma-Magpie },
year = 2024,
url = { https://huggingface.co/datasets/tokyotech-llm/swallow-gemma-magpie-v0.1 },
publisher = { Swallow Project }
}
提供机构:
maas
创建时间:
2025-10-03



