five

swallow-magpie-ultra-v0.1

收藏
魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/tokyotech-llm/swallow-magpie-ultra-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
## 📰 News * **[07/01/2025]** Release of the first version of the dataset containing **42k** Japanese pairs and **42k** English pairs. ## Dataset Summary Part of Swallow-Magpie-Ultra-v0.1 is a subset of instruction tuning data for training [tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3), [tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3), [tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2). The data extracted from [magpie-ultra-v0.1](https://huggingface.co/datasets/argilla/magpie-ultra-v0.1) with a quality of `average`, `good`, or `excellent` is `train_en.jsonl`. The data in `train_ja.jsonl` is the data that was translated from English to Japanese using [gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it) for the user's inputs and the assistant's responses in `train_en.jsonl`. ## Dataset columns ```python { "input": list, "output": dict, "quality": str, "primary_tag": str, } ``` example ```json { "input": [ { "role": "user", "content": "Cloudflareは、攻撃を受ける可能性のある人気のあるWebページをホストしています。100ノードを含むボットネットがサーバーを攻撃するために起動されます。Cloudflareは、サーバーへのノードあたりの平均要求レートを計算できるようにしたいと考えています。これを行うために、彼らは1時間の期間にわたって次のデータを記録します。\n\nノード1は50の要求を行います\nノード2は10の要求を行います\nノード5は1500の要求を行います\nノード13は20の要求を行います\nノード100は50の要求を行います\n\nこ の時間中に、残りのノードは要求を記録しません。この時間枠におけるノードあたりの平均要求数を計算するコードを書いてください。\n\n## ステップ1:問題と与えられたデータを定義する\nボットネット内の特定のノードが1時間の期間中に送信した要求の数値が与 えられています。要求を送信したノードは次のとおりです。ノード1(50の要求)、ノード2(10の要求)、ノード5(1500の要求)、ノード13(20の要求)、ノード100(50の要求)。残りのノード(95ノード)は要求を送信しませんでした。\n\n## ステップ2:すべてのノードによって行われた要求の総数を計算する\n総要求数 = 50(ノード1)+ 10(ノード2)+ 1500(ノード5)+ 20(ノード13)+ 50(ノード100)= 1630の要求。\n\n## ステップ3:ノードあたりの平均要求数を計算する\nボットネットには100ノードがあります。ノードあたりの平均要求数を計算するには、総要求数を総ノード数で割ります。ノードあたりの平均要求数 = 総要求数 / 総ノード数 = 1630 / 100 = 16.3。\n\n最終的な答えは:$\\boxed{16.3}$" } ], "output": { "role": "assistant", "content": "以下に、ノードあたりの平均リクエスト数を計算するPythonコードを示します。\n\n```python\ndef calculate_average_requests_per_node():\n # 各ノードが発行したリクエスト数を定義します\n node_requests = {\n 1: 50,\n 2: 10,\n 5: 1500,\n 13: 20,\n 100: 50\n }\n\n # リクエストの総数を計算します\n total_requests = sum(node_requests.values())\n\n # ボットネット内のノードの総数を定義します\n total_nodes = 100\n\n # ノードあたりの平均リクエスト数を計算します\n average_requests_per_node = total_requests / total_nodes\n\n return average_requests_per_node\n\naverage_requests_per_node = calculate_average_requests_per_node()\nprint(\"最終的な答えは\", average_requests_per_node)\n```" }, "quality": "good", "primary_tag": "Data analysis" } ``` ## References ``` @misc{fujii2024swallowmagpieultra, author = { Kazuki Fujii, Rio Yokota }, title = { Swallow-Magpie-Ultra }, year = 2024, url = { https://huggingface.co/datasets/tokyotech-llm/swallow-magpie-ultra-v0.1 }, publisher = { Swallow Project } } ```

## 📰 动态资讯 * **[2025年7月1日]** 本数据集首个正式版本发布,包含**42000条**日语指令-回复对与**42000条**英语指令-回复对。 ## 数据集概览 Swallow-Magpie-Ultra-v0.1 的子集之一,是用于训练 [tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3)、[tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3) 与 [tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2) 的指令微调数据子集。 从 [magpie-ultra-v0.1](https://huggingface.co/datasets/argilla/magpie-ultra-v0.1) 中抽取得到的、质量等级为`average`(中等)、`good`(良好)或`excellent`(优秀)的数据,存储于`train_en.jsonl`文件中。 `train_ja.jsonl` 中的数据,则是通过 [gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it) 模型,将`train_en.jsonl`中的用户输入与助手回复从英语翻译为日语得到的。 ## 数据集字段 python { "input": 列表, "output": 字典, "quality": 字符串, "primary_tag": 字符串, } ## 示例条目 json { "input": [ { "role": "user", "content": "Cloudflare 托管了可能遭受攻击的热门网页。一个包含100个节点的僵尸网络将发起对服务器的攻击。Cloudflare 希望能够计算出每个节点向服务器发起的平均请求速率。为此,他们记录了1小时内的以下数据: 节点1发起了50次请求 节点2发起了10次请求 节点5发起了1500次请求 节点13发起了20次请求 节点100发起了50次请求 在此期间,其余节点未发起任何请求。请编写代码计算该时间段内每个节点的平均请求数。 ## 步骤1:定义问题与给定数据 我们获得了僵尸网络内特定节点在1小时内发起的请求数量。发起请求的节点如下:节点1(50次请求)、节点2(10次请求)、节点5(1500次请求)、节点13(20次请求)、节点100(50次请求)。其余95个节点未发起任何请求。 ## 步骤2:计算所有节点发起的请求总数 总请求数 = 50(节点1)+ 10(节点2)+ 1500(节点5)+ 20(节点13)+ 50(节点100)= 1630次请求。 ## 步骤3:计算每个节点的平均请求数 该僵尸网络共有100个节点。计算每个节点的平均请求数,需将总请求数除以总节点数。每个节点的平均请求数 = 总请求数 / 总节点数 = 1630 / 100 = 16.3。 最终答案为:$\boxed{16.3}$" } ], "output": { "role": "assistant", "content": "以下为计算每个节点平均请求数的Python代码: python def calculate_average_requests_per_node(): # 定义各节点发起的请求数量 node_requests = { 1: 50, 2: 10, 5: 1500, 13: 20, 100: 50 } # 计算请求总数量 total_requests = sum(node_requests.values()) # 定义僵尸网络内的总节点数 total_nodes = 100 # 计算每个节点的平均请求数 average_requests_per_node = total_requests / total_nodes return average_requests_per_node average_requests_per_node = calculate_average_requests_per_node() print("最终的答案是", average_requests_per_node) " }, "quality": "good(良好)", "primary_tag": "数据分析(Data analysis)" } ## 参考文献 @misc{fujii2024swallowmagpieultra, 作者 = { Kazuki Fujii, Rio Yokota }, 标题 = { Swallow-Magpie-Ultra }, 年份 = 2024, 链接 = { https://huggingface.co/datasets/tokyotech-llm/swallow-magpie-ultra-v0.1 }, 出版方 = { Swallow Project } }
提供机构:
maas
创建时间:
2025-10-03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作