한국어문회 등급별 선정한자 CSV 데이터셋
收藏github2024-06-06 更新2024-06-08 收录
下载链接:
https://github.com/rycont/hanja-grade-dataset
下载链接
链接失效反馈官方服务:
资源简介:
由韩国语文会分类的等级汉字数据集,提供官方网站学习资料/其他资料中上传的Xls文件转换成的CSV文件。数据集包括不同等级的汉字及其详细信息,如发音、等级、汉字、意义、部首、笔画数等。
A graded Chinese character dataset classified by the Korean Language Society, providing CSV files converted from Xls files uploaded on the official website's learning materials and other resources. The dataset includes Chinese characters of various grades along with detailed information such as pronunciation, grade level, character, meaning, radical, and stroke count.
创建时间:
2024-06-06
原始信息汇总
한국어문회 등급별 선정한자 CSV 데이터셋
数据集概述
本数据集由사단법인 한국어문회提供,包含按等级分类的汉字数据。原始的Xls文件已转换为CSV格式,便于下载和使用。
数据下载
- 所有等级: /hanja.csv
- 等级分类数据: /by-level/*.csv
数据示例
| main_sound | level | hanja | meaning | radical | strokes | total_strokes |
|---|---|---|---|---|---|---|
| 가 | 7급Ⅱ | 家 | [[[집], [가]]] | 宀 | 7 | 10 |
| 가 | 7급 | 歌 | [[[노래], [가]]] | 欠 | 10 | 14 |
| 가 | 5급Ⅱ | 價 | [[[값], [가]]] | 人 | 13 | 15 |
数据构成
等级分类汉字数量
| 等级 | 数量 |
|---|---|
| 8급 | 50 |
| 7급 | 50 |
| 7급Ⅱ | 50 |
| 6급 | 75 |
| 6급Ⅱ | 75 |
| 5급 | 100 |
| 5급Ⅱ | 100 |
| 4급 | 250 |
| 4급Ⅱ | 250 |
| 3급 | 317 |
| 3급Ⅱ | 500 |
| 2급 | 538 |
| 1급 | 1145 |
| 특급 | 1150 |
| 특급Ⅱ | 1328 |
字段定义
typescript interface Hanja { main_sound: string; level: string; hanja: string; meaning: Meaning[]; radical: string; strokes: number; total_strokes: number; }
type Meaning = [ string[], string[] ]
搜集汇总
数据集介绍

构建方式
该数据集由韩国语言文化协会(사단법인 한국어문회)根据其官方网站上的学习资料和附加资料中的Xls文件转换为CSV格式构建而成。这一过程确保了数据的结构化和标准化,便于后续的分析和应用。通过将原始的Xls文件转换为CSV格式,数据集不仅保留了原始文件中的所有信息,还增强了其在不同平台和工具间的兼容性。
特点
该数据集的显著特点在于其详细的分类和丰富的信息内容。每一项数据不仅包含了汉字的基本信息,如汉字本身、读音、意义、部首、笔画数等,还根据韩国语言文化协会的等级分类进行了细致的划分。这种分类方式使得数据集在教育、语言学研究以及汉字学习应用中具有极高的实用价值。此外,数据集的结构化设计也便于用户进行筛选和查询,提升了数据的使用效率。
使用方法
用户可以通过GitHub页面直接下载整个数据集或按等级分类下载所需的部分。数据集的CSV格式使得其在各种数据处理工具和编程环境中易于导入和操作。用户可以根据需要筛选特定等级的汉字,进行深入的分析或开发相关应用。例如,教育机构可以利用该数据集设计汉字学习课程,研究人员可以进行语言学分析,开发者则可以构建汉字学习应用或工具。
背景与挑战
背景概述
한국어문회 등급별 선정한자 CSV 데이터셋是由韩国语言文化协会(사단법인 한국어문회)分类整理的汉字数据集。该数据集根据汉字的难度和使用频率,将其分为不同等级,旨在为学习者提供系统的汉字学习资源。数据集的创建源于协会官方网站上的学习资料,经过格式转换后以CSV文件形式提供,便于数据分析和教育应用。这一数据集的发布,对于推动汉字教育标准化和提升学习效率具有重要意义。
当前挑战
该数据集在构建过程中面临的主要挑战包括:首先,汉字的多样性和复杂性使得分类和标注工作异常繁琐,需要确保每个汉字的等级和含义准确无误。其次,数据格式的转换过程中,如何保持数据的完整性和一致性也是一个重要问题。此外,随着汉字使用环境的变化,数据集需要定期更新以反映最新的汉字使用情况,这增加了维护的复杂性。最后,数据集的开放性和可访问性要求确保其能够在不同平台和应用中无缝使用,这对技术支持和用户教育提出了更高要求。
常用场景
经典使用场景
该数据集在韩国汉字教育领域具有广泛应用,尤其在汉字等级考试的准备过程中,为学习者提供了系统化的汉字学习资源。通过将汉字按等级分类,学习者可以有针对性地提升自己的汉字识别和书写能力,从而更有效地应对不同等级的考试。
解决学术问题
该数据集解决了汉字教育中长期存在的标准化问题,通过提供详细的汉字信息,包括读音、意义、部首和笔画数等,为学术研究提供了丰富的数据支持。这不仅有助于教育研究者开发更有效的教学方法,还为语言学研究提供了宝贵的语料库。
衍生相关工作
基于该数据集,研究者们开发了多种汉字学习工具和应用程序,如汉字识别软件、在线测试平台和个性化学习系统。这些工具不仅提升了学习效率,还促进了汉字文化的传播和普及。此外,该数据集也为相关领域的学术研究提供了基础,推动了汉字教育理论的发展。
以上内容由遇见数据集搜集并总结生成



