高等教育考研咨询垂直领域数据集
收藏魔搭社区2026-01-08 更新2025-12-27 收录
下载链接:
https://modelscope.cn/datasets/L7July/CN-Grad-Consult-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
This dataset is a comprehensive corpus focused on the Chinese Postgraduate Entrance Examination (Kaoyan) domain. It integrates high-value structured data, such as historical admission scores and enrollment catalogs, with unstructured instruction data including general Q&A and candidate experiences. It is specifically designed to facilitate the training of Large Language Models (LLMs) in the education sector, enabling applications like Retrieval-Augmented Generation (RAG) for precise policy consultation and Supervised Fine-Tuning (SFT) for personalized exam planning.本数据集是一个专注于中国研究生入学考试(考研)垂直领域的综合语料库。数据集整合了历年录取分数线、招生专业目录等高价值结构化数据,以及通用问答、试卷分析和考生经验等非结构化指令数据。该数据集旨在助力教育领域的大语言模型(LLM)训练,特别适用于构建基于检索增强生成(RAG)的精准咨询系统,以及进行指令微调(SFT)以提升模型在备考规划和政策解读方面的能力。
本数据集为聚焦中国研究生入学考试(考研)领域的综合语料库,整合了历年录取分数线、招生专业目录等高价值结构化数据,以及通用问答、考生经验等非结构化指令数据。该数据集旨在助力教育领域大语言模型(Large Language Model)的训练,可支撑面向精准政策咨询的检索增强生成(Retrieval-Augmented Generation,RAG)应用开发,以及面向个性化备考规划的监督微调(Supervised Fine-Tuning,SFT)训练。
提供机构:
maas
创建时间:
2025-12-19
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个专注于考研与高校招生教育领域的垂直语料库,包含知识性文本(CPT)和问答式指令微调数据(SFT),内容涵盖招生目录、政策解读、院校概况、历年分数线、考试结构解析及备考经验。数据来源于研招网、各高校研究生院官网和公开经验分享贴,适用于教育领域大模型微调、检索增强生成知识库构建和领域适应连续预训练等场景。
以上内容由遇见数据集搜集并总结生成



