swallow-magpie-ultra-v0.1
收藏魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/tokyotech-llm/swallow-magpie-ultra-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
## 📰 News
* **[07/01/2025]** Release of the first version of the dataset containing **42k** Japanese pairs and **42k** English pairs.
## Dataset Summary
Part of Swallow-Magpie-Ultra-v0.1 is a subset of instruction tuning data for training [tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3), [tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3), [tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2).
The data extracted from [magpie-ultra-v0.1](https://huggingface.co/datasets/argilla/magpie-ultra-v0.1) with a quality of `average`, `good`, or `excellent` is `train_en.jsonl`.
The data in `train_ja.jsonl` is the data that was translated from English to Japanese using [gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it) for the user's inputs and the assistant's responses in `train_en.jsonl`.
## Dataset columns
```python
{
"input": list,
"output": dict,
"quality": str,
"primary_tag": str,
}
```
example
```json
{
"input": [
{
"role": "user",
"content": "Cloudflareは、攻撃を受ける可能性のある人気のあるWebページをホストしています。100ノードを含むボットネットがサーバーを攻撃するために起動されます。Cloudflareは、サーバーへのノードあたりの平均要求レートを計算できるようにしたいと考えています。これを行うために、彼らは1時間の期間にわたって次のデータを記録します。\n\nノード1は50の要求を行います\nノード2は10の要求を行います\nノード5は1500の要求を行います\nノード13は20の要求を行います\nノード100は50の要求を行います\n\nこ
の時間中に、残りのノードは要求を記録しません。この時間枠におけるノードあたりの平均要求数を計算するコードを書いてください。\n\n## ステップ1:問題と与えられたデータを定義する\nボットネット内の特定のノードが1時間の期間中に送信した要求の数値が与
えられています。要求を送信したノードは次のとおりです。ノード1(50の要求)、ノード2(10の要求)、ノード5(1500の要求)、ノード13(20の要求)、ノード100(50の要求)。残りのノード(95ノード)は要求を送信しませんでした。\n\n## ステップ2:すべてのノードによって行われた要求の総数を計算する\n総要求数 = 50(ノード1)+ 10(ノード2)+ 1500(ノード5)+ 20(ノード13)+ 50(ノード100)= 1630の要求。\n\n## ステップ3:ノードあたりの平均要求数を計算する\nボットネットには100ノードがあります。ノードあたりの平均要求数を計算するには、総要求数を総ノード数で割ります。ノードあたりの平均要求数 = 総要求数 / 総ノード数 = 1630 / 100 = 16.3。\n\n最終的な答えは:$\\boxed{16.3}$"
}
],
"output": {
"role": "assistant",
"content": "以下に、ノードあたりの平均リクエスト数を計算するPythonコードを示します。\n\n```python\ndef calculate_average_requests_per_node():\n # 各ノードが発行したリクエスト数を定義します\n node_requests = {\n 1: 50,\n 2: 10,\n 5: 1500,\n 13: 20,\n 100: 50\n }\n\n # リクエストの総数を計算します\n total_requests = sum(node_requests.values())\n\n # ボットネット内のノードの総数を定義します\n total_nodes = 100\n\n # ノードあたりの平均リクエスト数を計算します\n average_requests_per_node = total_requests / total_nodes\n\n return average_requests_per_node\n\naverage_requests_per_node = calculate_average_requests_per_node()\nprint(\"最終的な答えは\", average_requests_per_node)\n```"
},
"quality": "good",
"primary_tag": "Data analysis"
}
```
## References
```
@misc{fujii2024swallowmagpieultra,
author = { Kazuki Fujii, Rio Yokota },
title = { Swallow-Magpie-Ultra },
year = 2024,
url = { https://huggingface.co/datasets/tokyotech-llm/swallow-magpie-ultra-v0.1 },
publisher = { Swallow Project }
}
```
## 📰 动态资讯
* **[2025年7月1日]** 本数据集首个正式版本发布,包含**42000条**日语指令-回复对与**42000条**英语指令-回复对。
## 数据集概览
Swallow-Magpie-Ultra-v0.1 的子集之一,是用于训练 [tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3)、[tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3) 与 [tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2) 的指令微调数据子集。
从 [magpie-ultra-v0.1](https://huggingface.co/datasets/argilla/magpie-ultra-v0.1) 中抽取得到的、质量等级为`average`(中等)、`good`(良好)或`excellent`(优秀)的数据,存储于`train_en.jsonl`文件中。
`train_ja.jsonl` 中的数据,则是通过 [gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it) 模型,将`train_en.jsonl`中的用户输入与助手回复从英语翻译为日语得到的。
## 数据集字段
python
{
"input": 列表,
"output": 字典,
"quality": 字符串,
"primary_tag": 字符串,
}
## 示例条目
json
{
"input": [
{
"role": "user",
"content": "Cloudflare 托管了可能遭受攻击的热门网页。一个包含100个节点的僵尸网络将发起对服务器的攻击。Cloudflare 希望能够计算出每个节点向服务器发起的平均请求速率。为此,他们记录了1小时内的以下数据:
节点1发起了50次请求
节点2发起了10次请求
节点5发起了1500次请求
节点13发起了20次请求
节点100发起了50次请求
在此期间,其余节点未发起任何请求。请编写代码计算该时间段内每个节点的平均请求数。
## 步骤1:定义问题与给定数据
我们获得了僵尸网络内特定节点在1小时内发起的请求数量。发起请求的节点如下:节点1(50次请求)、节点2(10次请求)、节点5(1500次请求)、节点13(20次请求)、节点100(50次请求)。其余95个节点未发起任何请求。
## 步骤2:计算所有节点发起的请求总数
总请求数 = 50(节点1)+ 10(节点2)+ 1500(节点5)+ 20(节点13)+ 50(节点100)= 1630次请求。
## 步骤3:计算每个节点的平均请求数
该僵尸网络共有100个节点。计算每个节点的平均请求数,需将总请求数除以总节点数。每个节点的平均请求数 = 总请求数 / 总节点数 = 1630 / 100 = 16.3。
最终答案为:$\boxed{16.3}$"
}
],
"output": {
"role": "assistant",
"content": "以下为计算每个节点平均请求数的Python代码:
python
def calculate_average_requests_per_node():
# 定义各节点发起的请求数量
node_requests = {
1: 50,
2: 10,
5: 1500,
13: 20,
100: 50
}
# 计算请求总数量
total_requests = sum(node_requests.values())
# 定义僵尸网络内的总节点数
total_nodes = 100
# 计算每个节点的平均请求数
average_requests_per_node = total_requests / total_nodes
return average_requests_per_node
average_requests_per_node = calculate_average_requests_per_node()
print("最终的答案是", average_requests_per_node)
"
},
"quality": "good(良好)",
"primary_tag": "数据分析(Data analysis)"
}
## 参考文献
@misc{fujii2024swallowmagpieultra,
作者 = { Kazuki Fujii, Rio Yokota },
标题 = { Swallow-Magpie-Ultra },
年份 = 2024,
链接 = { https://huggingface.co/datasets/tokyotech-llm/swallow-magpie-ultra-v0.1 },
出版方 = { Swallow Project }
}
提供机构:
maas
创建时间:
2025-10-03



