five

HSK 2025 Data

收藏
github2026-04-02 更新2026-04-01 收录
下载链接:
https://github.com/chelsea6502/hsk-2025-data
下载链接
链接失效反馈
官方服务:
资源简介:
最新的2025年HSK(汉语水平考试)词汇、汉字和语法数据,以TSV格式提供,来源自chinesetest.cn。

The latest 2025 HSK (Chinese Proficiency Test) vocabulary, character and grammar data, provided in TSV format, sourced from chinesetest.cn.
创建时间:
2026-03-15
原始信息汇总

HSK 2025 数据集概述

数据集简介

该数据集提供了2025年最新版汉语水平考试(HSK)的词汇、汉字和语法数据,数据格式为TSV。数据来源为官方网站 chinesetest.cn。

数据文件详情

数据集包含以下三个核心文件:

  • vocabulary.tsv:包含约11,000条词汇记录,每条记录包含词语、拼音、词性和所属等级。
  • grammar.tsv:包含约593条语法点记录,每条记录包含语法点及其示例。
  • hanzi.tsv:包含约4,288条汉字记录,按等级列出单个汉字。

等级分布统计

下表详细列出了各HSK等级在词汇、汉字和语法方面的数量及累计数量。

等级 词汇量 累计词汇量 汉字量 累计汉字量 语法点 累计语法点
HSK1 300 300 246 246 70 70
HSK2 200 500 225 471 78 148
HSK3 500 1,000 434 905 96 244
HSK4 1,000 2,000 591 1,496 95 339
HSK5 1,600 3,600 581 2,077 70 409
HSK6 1,800 5,400 563 2,640 50 459
HSK7-9 5,600 11,000 1,648 4,288 134 593
搜集汇总
数据集介绍
main_image_url
构建方式
在汉语作为第二语言教学领域,标准化评估体系的数据资源具有重要价值。HSK 2025数据集的构建严格遵循中国教育部中外语言交流合作中心发布的《国际中文教育中文水平等级标准》,其核心内容直接来源于官方平台chinesetest.cn。该数据集通过系统化采集与整理,将词汇、汉字及语法点三大模块以结构化TSV格式呈现,确保了数据来源的权威性与时效性。每个条目均标注了对应的HSK等级,形成了从初级到高级的完整知识体系,为学术研究与教学应用提供了可靠的基础语料。
特点
该数据集的一个显著特点是其全面性与层级性,涵盖了HSK1至HSK9全部等级的累计约11,000个词汇、4,288个汉字及593个语法点。数据以机器可读的TSV格式存储,字段清晰,便于直接进行数据处理与分析。词汇与汉字均按等级渐进分布,并附有拼音、词性及示例等丰富标注信息,语法点则配有实用例句,共同构成了一个层次分明、信息完整的汉语学习资源体系。这种结构化设计特别适合用于语言能力评估、教材开发及自然语言处理任务。
使用方法
研究人员与开发者可通过下载TSV文件,利用编程工具或数据分析软件直接加载数据集。词汇、汉字和语法文件相互独立又可通过等级字段关联,便于按需提取特定级别的学习内容或进行跨级别对比分析。该数据集适用于构建汉语学习应用程序、自动化水平测试系统、词汇频率统计研究以及智能教学工具的开发。在实际应用中,建议结合具体的教学或研究目标,对数据进行清洗、转换或与其它语料库进行融合,以充分发挥其结构化与层级化的优势。
背景与挑战
背景概述
汉语水平考试(HSK)作为评估非母语者汉语能力的国际标准化测试,其词汇、汉字及语法大纲的更新始终引领着对外汉语教学与研究的方向。HSK 2025数据集由汉考国际(CTI)于2025年发布,标志着考试体系向九级结构的重大改革。该数据集系统收录了约11,000个词汇、4,288个汉字及593个语法点,以结构化TSV格式呈现,为语言学习资源开发、教材编写及自然语言处理任务提供了权威、时效性强的基准数据。其层级化设计不仅反映了语言习得的渐进性,也推动了汉语作为第二语言习得理论与计算语言学应用的深度融合。
当前挑战
HSK 2025数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,该数据集需解决汉语作为第二语言的标准化评估与自适应学习支持之间的张力,即如何在统一考试框架下精准刻画学习者从初级到高级(HSK1-9级)的语言能力连续体,并应对多方言背景、语用文化差异带来的表征复杂性。构建过程中,挑战源于大纲修订的时效性与数据一致性的平衡:需从官方渠道整合并验证大量新增词汇、汉字及语法点,确保分级体系的科学性与数据格式的机器可读性,同时避免历史版本与新版数据间的混淆,这对数据清洗、跨级映射与长期维护提出了较高要求。
常用场景
经典使用场景
在汉语作为第二语言的教学与评估领域,HSK 2025数据集为研究者提供了标准化的词汇、汉字及语法资源。该数据集常被用于构建自适应学习系统,依据学习者所处的HSK等级,智能推荐相应的语言知识点,从而优化个性化学习路径。此外,它也为大规模语言能力测试的题库开发与难度校准提供了权威参照,确保评估工具的科学性与公平性。
解决学术问题
该数据集有效解决了汉语二语习得研究中长期存在的资源分散与标准不一的问题。通过提供结构化的分级语料,它支持对词汇习得顺序、语法复杂度演进以及汉字认知负荷的量化分析。这为探究语言能力发展的阶段性规律、验证教学法效能提供了坚实的数据基础,显著提升了相关研究的可重复性与可比性。
衍生相关工作
围绕该数据集,学界已衍生出多项经典研究工作。例如,基于其词汇等级数据构建的神经网络模型,用于预测文本的HSK难度等级,辅助阅读材料分级。另有研究利用其语法点标注,开发自动语法错误检测系统,应用于作文自动评分。这些工作共同推动了计算语言学与计算机辅助语言教学领域的交叉创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作