MiroRL-GenQA

Name: MiroRL-GenQA
Creator: maas
Published: 2026-01-07 22:26:39
License: 暂无描述

魔搭社区2026-01-07 更新2025-08-16 收录

下载链接：

https://modelscope.cn/datasets/okwinds/MiroRL-GenQA

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集转载自 huggingface 【[miromind-ai](https://huggingface.co/miromind-ai)】 #### 📖 关于项目相关的研究，可阅读公众号“觉察流”文章👇</br> 《[MiroMind-M1：如何用CAMPO算法打造高效且可复现的全栈开源推理模型](https://mp.weixin.qq.com/s/REPzzgsUjDMikg4jIo9KRg)》 #### _本仓库作者在此 👇🏻 扫一扫_ <img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" /> --- 数据集文件元信息以及数据文件，请浏览“数据集文件”页面获取。您可以通过如下GIT Clone命令，或者ModelScope SDK来下载数据集 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} # 官方 MiroRL-GenQA 简介 A curated dataset for **reinforcement learning (RL) training** within the [MiroRL](https://github.com/MiroMindAI/MiroRL) framework. ## Overview * **Source**: Provided by MiroMind AI as part of the MiroRL project. * **Format & Size**: Contains \~13.1k examples in Parquet format for efficient loading and processing. * **License**: Released under CC-BY-NC-4.0 for non-commercial use. * **Purpose**: Designed to serve as high-quality input for RL fine-tuning in the MiroRL pipeline. ## Dataset Structure Each record typically contains: * A **user query** (prompt) * A **model-generated answer** (response) The data is stored in Parquet format, making it easy to load via the Hugging Face `datasets` library or with `pandas`. ## Installation & Usage Download via Hugging Face CLI: ```bash huggingface-cli download --repo-type dataset miromind-ai/MiroRL-GenQA --local-dir data/ ``` Load with Python: ```python from datasets import load_dataset dataset = load_dataset("miromind-ai/MiroRL-GenQA", split="train") print(dataset) ``` Or with pandas: ```python import pandas as pd df = pd.read_parquet("data/default/train.parquet") print(df.head()) ``` ## Recommended Use This dataset is particularly suited for RL training within the [MiroRL](https://github.com/MiroMindAI/MiroRL) framework. You can combine it with MiroRL's official SFT (Supervised Fine-Tuning) checkpoints to initialize an agent before RL training. For a complete guide to MiroRL setup, architecture, and recipes, please refer to the [MiroRL GitHub repository](https://github.com/MiroMindAI/MiroRL). ## License Released under CC-BY-NC-4.0.

本数据集转载自Hugging Face平台【[miromind-ai](https://huggingface.co/miromind-ai)】 #### 📖 如需了解本项目相关研究，可查阅公众号「觉察流」发布的文章👇 《[MiroMind-M1：如何借助CAMPO算法构建高效且可复现的全栈开源推理模型](https://mp.weixin.qq.com/s/REPzzgsUjDMikg4jIo9KRg)》 #### 👇🏻 扫码关注本仓库作者 <img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" /> --- 数据集文件元数据与数据本体，请前往「数据集文件」页面获取。您可通过以下Git Clone命令或ModelScope软件开发工具包（SDK）下载本数据集 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} # 官方 MiroRL-GenQA 数据集简介专为[MiroRL](https://github.com/MiroMindAI/MiroRL)框架内**强化学习（Reinforcement Learning，RL）训练**打造的精选数据集。 ## 概览 * **数据来源**：由MiroMind AI作为MiroRL项目的一部分提供。 * **格式与规模**：采用Parquet格式存储，包含约13.1k条样本，便于高效加载与处理。 * **授权协议**：采用CC-BY-NC-4.0协议发布，仅允许非商业性使用。 * **应用目标**：旨在作为MiroRL流程中强化学习微调的高质量输入数据。 ## 数据集结构每条样本通常包含以下字段： * **用户查询（Prompt）**：即输入提示词 * **模型生成回答（Response）**：即模型输出结果本数据集采用Parquet格式存储，可通过Hugging Face `datasets`库或`pandas`库轻松加载。 ## 安装与使用通过Hugging Face命令行界面（CLI）下载： bash huggingface-cli download --repo-type dataset miromind-ai/MiroRL-GenQA --local-dir data/ 使用Python加载： python from datasets import load_dataset dataset = load_dataset("miromind-ai/MiroRL-GenQA", split="train") print(dataset) 或使用pandas加载： python import pandas as pd df = pd.read_parquet("data/default/train.parquet") print(df.head()) ## 推荐应用场景本数据集尤其适用于[MiroRL](https://github.com/MiroMindAI/MiroRL)框架内的强化学习训练任务。您可将其与MiroRL官方的监督微调（Supervised Fine-Tuning，SFT）检查点相结合，在强化学习训练前初始化智能体（AI Agent）。如需了解MiroRL的完整部署指南、架构设计与使用方案，请参阅[MiroRL GitHub仓库](https://github.com/MiroMindAI/MiroRL)。 ## 授权协议采用CC-BY-NC-4.0协议发布。

提供机构：

maas

创建时间：

2025-08-10

5,000+

优质数据集

54 个

任务类型

进入经典数据集