HSKBenchmark

Name: HSKBenchmark
Creator: 华南师范大学,暨南大学,上海外国语大学
Published: 2025-11-20 00:06:06
License: 暂无描述

arXiv2025-11-20 更新2025-11-21 收录

下载链接：

https://github.com/CharlesYang030/HSKB

下载链接

链接失效反馈

官方服务：

资源简介：

HSKBenchmark是由华南师范大学等机构联合构建的首个面向中文二语习得的分阶段建模与写作评估基准。该数据集包含676万字符的权威教材语料和1.6万条合成指令数据，覆盖HSK3-6等级的语言学习材料。数据集通过整合79本国际中文教育教材，并基于591个分级语法项目利用大模型生成写作练习指令构建而成。该基准主要应用于大语言模型的中文二语习得建模研究，旨在解决语言发展轨迹模拟和动态写作能力评估等关键科学问题。

HSKBenchmark is the first staged modeling and writing assessment benchmark for Chinese as a Second Language (CSL), jointly constructed by South China Normal University and other institutions. This dataset contains 6.76 million characters of authoritative textbook corpora and 16,000 synthetic instruction samples, covering language learning materials from HSK Levels 3 to 6. It is built by integrating 79 international Chinese education textbooks and generating writing practice instructions via large language models based on 591 graded grammar items. This benchmark is mainly applied to research on Chinese as a second language acquisition modeling for large language models, aiming to address key scientific issues such as simulation of language development trajectories and dynamic writing ability assessment.

提供机构：

华南师范大学,暨南大学,上海外国语大学

创建时间：

2025-11-20

原始信息汇总

HSKBenchmark 数据集概述

数据集基本信息

名称: HSKBenchmark
研究领域: 中文二语习得建模与大语言模型课程调优
学术状态: 已提交至AAAI26 AI for Social Impact
核心目标: 通过课程调优实现大语言模型在中文二语习得中的阶段性建模和写作评估

数据集构成

数据规模

覆盖范围: HSK 3-6级
教材语料: 6.76M tokens
指令数据: 16K条合成指令
测试题目: 30个写作标题

数据内容

训练数据

教材清单: https://github.com/CharlesYang030/HSKB/blob/main/data/pretraining_data/textbook_checklist.xlsx
教材数据: https://github.com/CharlesYang030/HSKB/tree/main/data/pretraining_data/pretrain-data
分级预训练数据: https://github.com/CharlesYang030/HSKB/tree/main/data/pretraining_data
语法项目清单: https://github.com/CharlesYang030/HSKB/blob/main/data/grammar_instruction_data/grammar_items/HSK_grammar_items_selected_collection.xlsx
语法项目数据: https://github.com/CharlesYang030/HSKB/tree/main/data/grammar_instruction_data/grammar_items
分级指令数据: https://github.com/CharlesYang030/HSKB/tree/main/data/grammar_instruction_data/level_based_sft_data

测试数据

写作题目: https://github.com/CharlesYang030/HSKB/blob/main/codes/data/writing_test_data.json

评估体系

评估维度

基于等级的语法项目覆盖度
写作错误分析
词汇复杂度
句法复杂度
整体评分

自动化评估工具

HSKAgent: 基于10K篇中文二语学习者作文微调的自动评估代理

开源资源

数据集资源

训练数据: https://huggingface.co/datasets/CharlesYeung001/Curriculum_Tuning_Training_Data
测试数据: https://huggingface.co/datasets/CharlesYeung001/Curriculum_Tuning_Test_Data
写作与错误数据: https://huggingface.co/datasets/CharlesYeung001/Writing_and_Errors

模型资源

课程调优适配器: https://huggingface.co/CharlesYeung001/HSKBenchmark_adapters

技术支持

开发框架: LLaMA-Factory
运行环境: PyTorch 2.6.0 + 3×RTX 3090 GPU
支持模型: Llama2-7B-Chat, Mistral-7B-Instruct-v0.3, Chinese-Alpaca-2-7B, Qwen3-8B

搜集汇总

数据集介绍

构建方式

HSKBenchmark的构建遵循汉语作为第二语言习得的阶段性特征，通过收集79本国际中文教育领域广泛使用的教材，涵盖HSK三级至六级，形成包含676万字符的层级化语料库。基于《国际中文教育中文水平等级标准》标注的591个语法项目，采用三种前沿大语言模型生成1.6万条写作练习指令数据，并通过人工校验确保95%的有效性与0.91的标注一致性，最终构建出兼具教材输入与写作输出的双轨训练体系。

特点

该数据集创新性地融合了课程调优框架，模拟人类从初级到高级的语言习得轨迹，实现大语言模型的分阶段渐进式训练。其评估体系植根于语言学理论，涵盖语法项目覆盖率、写作偏误、词汇复杂度、句法复杂度和整体评分五个维度，并开发了基于Qwen3-8B的HSKAgent自动评估代理，在语法检测任务中达到0.97的F1值，与人工评分者保持0.80以上的相关性指标，展现出多维度、可量化的科学评估特性。

使用方法

研究者可依托课程调优框架实施分阶段训练，首先使用层级化教材数据进行预训练模拟语言输入，继而通过指令微调强化写作输出能力。评估阶段采用30个真实HSK写作题目作为测试任务，借助HSKAgent自动计算五项语言学指标，其中语法覆盖率通过二元分类实现，写作偏误采用多层级错误标注体系，复杂度指标通过函数调用自动提取，整体评分则结合深度学习与规则方法，形成标准化、可复现的评估流程。

背景与挑战

背景概述

在语言习得研究领域，揭示人类语言智能本质一直是核心科学问题。HSKBenchmark由华南师范大学、暨南大学和上海外国语大学的研究团队于2025年创建，旨在解决汉语作为第二语言习得建模中的关键难题。该数据集基于汉语水平考试（HSK）标准，覆盖3-6级语言能力阶段，包含676万字符的教材语料和1.6万条合成指令数据。其创新性在于首次构建了面向大语言模型的阶段性汉语习得评估框架，通过课程调优技术模拟人类学习轨迹，为语言智能的可解释性研究提供了重要基础设施。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决汉语二语习得阶段性建模的验证难题，包括如何准确划分语言能力等级边界、构建动态写作评估体系，以及量化语言发展轨迹；在构建过程中，需攻克分级训练数据的系统性采集难题，包括从79种教材中提取语义紧凑文本、基于591个语法项目生成高质量指令数据，以及开发自动化评估代理HSKAgent来整合语法覆盖度、写作错误、词汇句法复杂度等多维语言学指标。

常用场景

衍生相关工作

基于该数据集开发的课程调优方法启发了多语言习得建模的研究方向，已有工作将其扩展至CEFR框架下的欧洲语言学习评估。其分级评估体系被Adapted-L2Bench等基准借鉴，用于研究跨语言迁移现象。HSKAgent的架构设计促进了教育智能体领域的发展，衍生出专注于语法纠错与写作风格分析的专项模型。这些工作共同推动了可解释人工智能在语言教育中的应用，为理解大语言模型的知识表征机制开辟了新路径。

数据集最近研究