EunsuKim/CLIcK
收藏Hugging Face2024-07-04 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/EunsuKim/CLIcK
下载链接
链接失效反馈官方服务:
资源简介:
CLIcK(韩语文化和语言智能)是一个综合数据集,旨在评估韩语模型的文化和语言智能。在多样化的语言模型不断涌现的时代,尤其是对于像韩语这样的非英语语言,迫切需要强大的评估数据集。CLIcK通过提供一个丰富且分类良好的数据集来填补这一空白,该数据集专注于文化和语言两个方面,能够对韩语模型进行细致的评估。数据集包含文化和语言两个大类,进一步细分为11个子类别。数据集通过重新分类官方考试数据和基于官方教育材料生成问题的方式构建。数据集结构清晰,每个子类别包含相关的JSON文件。
CLIcK (Korean Culture and Language Intelligence) is a comprehensive dataset designed to evaluate the cultural and linguistic intelligence of Korean language models. In an era where diverse language models are emerging rapidly, there is an urgent demand for robust evaluation datasets, particularly for non-English languages such as Korean. CLIcK fills this gap by providing a rich, well-classified dataset focused on both cultural and linguistic dimensions, enabling fine-grained evaluation of Korean language models. The dataset includes two broad categories: Culture and Language, which are further subdivided into 11 subcategories. It is constructed by reclassifying official examination data and generating questions based on official educational materials. The dataset has a clear structure, with relevant JSON files provided for each subcategory.
提供机构:
EunsuKim
原始信息汇总
数据集概述
名称: CLIcK (Cultural and Linguistic Intelligence in Korean)
目的: 评估韩国语言模型在文化和语言智能方面的表现。
语言: 韩语 (ko)
任务类别: 多选题 (multiple-choice)
标签: 文化 (Culture), 语言 (Language)
大小: 1K<n<10K
数据集结构
类别:
- 语言:
- 文本知识
- 语法知识
- 功能知识
- 文化:
- 韩国社会
- 韩国传统
- 韩国政治
- 韩国经济
- 韩国法律
- 韩国历史
- 韩国地理
- 韩国流行文化 (K-Pop)
构建方法:
- 官方和精心设计的考试数据的重新分类。
- 使用ChatGPT基于韩国司法部的官方教育材料生成问题,并进行自我验证。
数据组织:
📦CLIcK └─ Dataset ├─ Culture │ ├─ [各文化子类别及其相关JSON文件] └─ Language ├─ [各语言子类别及其相关JSON文件]
数据集链接
引用信息
bibtex @misc{kim2024click, title={CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean}, author={Eunsu Kim and Juyoung Suk and Philhoon Oh and Haneul Yoo and James Thorne and Alice Oh}, year={2024}, eprint={2403.06412}, archivePrefix={arXiv}, primaryClass={cs.CL} }



