CN-Grad-Consult-Dataset (高等教育考研咨询数据集)

Name: CN-Grad-Consult-Dataset (高等教育考研咨询数据集)
Creator: luoda
Published: 2026-06-07 11:31:16
License: 暂无描述

OpenDataLab2026-06-07 更新2026-03-07 收录

下载链接：

https://opendatalab.org.cn/luoda/CN-Grad-Consult-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个面向考研全流程的中文领域语料库，覆盖“招生目录、录取分数、院校画像、政策公告、考试结构、上岸经验与常见问答”等关键场景，采用标准 `JSONL` 格式，便于批量读取、清洗与训练。全量规模为 12 个文件、516,507 条样本，约 398.35 MiB：其中 `CPT` 语料 205,152 条，重点承担领域知识注入与语言建模；`SFT` 语料 311,355 条，重点训练问答生成、指令遵循和咨询表达能力。数据模式主要分为 `text`（连续文本）与 `instruction/input/output`（指令样本）两类，并在多数文件中提供 `meta` 字段，包含学校、专业代码、年份、来源标题与 URL 等关键信息，支持溯源、过滤与任务级采样。该数据集可显著增强模型在“择校选专业、分数查询、考试内容解读、政策理解、经验总结与个性化建议”上的实用能力，适用于考研助手、检索增强问答和教育咨询系统。整体数据可解析性良好（逐行 UTF-8 可读），但存在结构性分布不均与局部重复率偏高问题，建议训练前进行去重、重采样、长文本切片和分层划分，以提升泛化效果与回答稳定性。

This dataset is a Chinese-domain corpus tailored for the entire postgraduate entrance examination (PET) process, covering key scenarios including admission catalogs, admission score statistics, institution profiles, policy announcements, examination framework, postgraduate admission success experience and frequently asked questions (FAQs). It adopts the standard `JSONL` format, enabling efficient batch reading, cleaning and model training. The full dataset comprises 12 files with a total of 516,507 samples, with an overall size of approximately 398.35 MiB. Among them, the `CPT` corpus contains 205,152 samples, which are primarily utilized for domain knowledge injection and language modeling tasks; the `SFT` corpus includes 311,355 samples, which are designed to train the model's capabilities in question-answering generation, instruction following and consultation expression. The dataset primarily has two data formats: `text` (continuous natural text) and `instruction/input/output` (instruction-tuning samples). Most files also provide a `meta` field that contains key information such as institution name, major code, examination year, source title and URL, which supports data traceability, filtering and task-level sampling. This dataset can significantly enhance the model's practical capabilities in school and major selection, score query, examination content interpretation, policy understanding, experience summarization and personalized advice provision, and is suitable for building postgraduate entrance examination assistants, retrieval-augmented question answering (RAG) systems and educational consultation platforms. The entire dataset has good parseability, as each line is UTF-8 encoded and human-readable. However, it suffers from uneven structural distribution and a relatively high local duplicate rate. It is recommended to perform deduplication, resampling, long text slicing and hierarchical data partitioning before model training to improve generalization performance and answer stability.

提供机构：

luoda

创建时间：

2026-03-05

搜集汇总

数据集介绍