five

CN-Grad-Consult-Dataset (高等教育考研咨询数据集)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/luoda/CN-Grad-Consult-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是一个面向考研全流程的中文领域语料库,覆盖“招生目录、录取分数、院校画像、政策公告、考试结构、上岸经验与常见问答”等关键场景,采用标准 `JSONL` 格式,便于批量读取、清洗与训练。全量规模为 12 个文件、516,507 条样本,约 398.35 MiB:其中 `CPT` 语料 205,152 条,重点承担领域知识注入与语言建模;`SFT` 语料 311,355 条,重点训练问答生成、指令遵循和咨询表达能力。数据模式主要分为 `text`(连续文本)与 `instruction/input/output`(指令样本)两类,并在多数文件中提供 `meta` 字段,包含学校、专业代码、年份、来源标题与 URL 等关键信息,支持溯源、过滤与任务级采样。该数据集可显著增强模型在“择校选专业、分数查询、考试内容解读、政策理解、经验总结与个性化建议”上的实用能力,适用于考研助手、检索增强问答和教育咨询系统。整体数据可解析性良好(逐行 UTF-8 可读),但存在结构性分布不均与局部重复率偏高问题,建议训练前进行去重、重采样、长文本切片和分层划分,以提升泛化效果与回答稳定性。
提供机构:
luoda
创建时间:
2026-03-05
二维码
社区交流群
二维码
科研交流群
商业服务