CLIcK 和 HAE_RAE_BENCH 1.0

github2024-08-09 更新2024-08-10 收录

下载链接：

https://github.com/daekeun-ml/evaluate-llm-on-korean-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CLIcK 数据集评估韩国语言在韩国文化（历史、地理、法律、政治、社会、传统、经济、流行文化）和韩国语言（文本、功能、语法）领域的熟练程度。包含1,995个样本数据，分为11个类别，提供4或5选一的多项选择题。HAE_RAE_BENCH 1.0 数据集评估韩国语言在6个类别（一般知识、历史、外来词、罕见词、阅读理解、标准命名法）的熟练程度，包含1,538个样本数据，提供多项选择题。

The CLIcK dataset evaluates proficiency in the Korean language across two major domains: Korean culture (encompassing history, geography, law, politics, society, tradition, economy, and popular culture) and the Korean language itself, covering text, functions, and grammar. It includes 1,995 sample items categorized into 11 distinct classes, with all questions formatted as multiple-choice tasks offering either 4 or 5 answer options. The HAE_RAE_BENCH 1.0 dataset assesses proficiency in the Korean language across 6 categories: general knowledge, history, loanwords, rare words, reading comprehension, and standard nomenclature. It contains 1,538 sample entries, with all questions presented as multiple-choice formats.

创建时间：

2024-08-09

原始信息汇总

韩语语言能力评估数据集

概述

随着各种LLM/SLM模型的不断涌现，对于非英语语言如韩语的评估数据集的需求日益增长。CLIcK（Cultural and Linguistic Intelligence in Korean）和HAE_RAE_BENCH 1.0填补了这一空白，提供了丰富的、分类良好的数据集，专注于文化和语言方面，使韩语模型的详细评估成为可能。

CLIcK（Cultural and Linguistic Intelligence in Korean）

该数据集评估韩语语言能力，涵盖韩国文化（历史、地理、法律、政治、社会、传统、经济、流行文化）和韩语语言（文本、功能、语法）等领域。共有1,995个样本数据，分为11个类别。数据集呈现4或5选一的多项选择题，根据问题提供额外上下文。

HAE_RAE_BENCH 1.0

该数据集评估韩语语言能力，包括以下6个类别（常识、历史、外来词、罕见词、阅读理解、标准术语）。与CLIcK类似，任务是解决多项选择题，但没有额外上下文。共有1,538个样本数据，分为6个类别。

结果

CLIcK

类别大类	类别	GPT-4o-mini (2024-07-18)	GPT-4o (2024-05-13)	GPT-4 (turbo-2024-04-09)	GPT-3.5-turbo (2023-06-13)	Llama-3.1 8B-Instruct
文化	经济	0.81	0.95	0.90	0.64	0.42
文化	地理	0.78	0.82	0.82	0.53	0.34
文化	历史	0.48	0.68	0.46	0.33	0.23
文化	法律	0.58	0.71	0.61	0.42	0.32
文化	政治	0.83	0.89	0.89	0.65	0.39
文化	流行文化	0.85	0.98	0.93	0.73	0.39
文化	社会	0.86	0.92	0.87	0.72	0.44
文化	传统	0.73	0.88	0.79	0.56	0.37
语言	功能	0.65	0.84	0.80	0.39	0.13
语言	语法	0.43	0.57	0.48	0.30	0.22
语言	文本	0.81	0.91	0.87	0.62	0.22
类别大类平均:
文化		0.71	0.82	0.74	0.54	0.35
语言		0.64	0.77	0.71	0.46	0.20

HAE_RAE_BENCH 1.0

类别	GPT-4o-mini (2024-07-18)	GPT-4o (2024-05-13)	GPT-4 (turbo-2024-04-09)	GPT-3.5-turbo (2023-06-13)	Llama-3.1 8B-Instruct
常识	0.53	0.77	0.66	0.41	0.18
历史	0.85	0.92	0.79	0.30	0.15
外来词	0.76	0.80	0.78	0.59	0.21
罕见词	0.82	0.88	0.79	0.60	0.20
阅读理解	0.77	0.85	0.80	0.56	0.23
标准术语	0.76	0.89	0.79	0.54	0.19
总体平均:
	0.75	0.85	0.77	0.50	0.19

搜集汇总

数据集介绍

构建方式

CLIcK 和 HAE_RAE_BENCH 1.0 数据集的构建旨在评估大型语言模型（LLM）和序列到序列模型（SLM）在韩语语言能力上的表现。CLIcK 数据集涵盖了韩国文化和语言的11个类别，包含1,995个样本，采用4-或5-选择的多选题形式，部分问题附带额外背景信息。HAE_RAE_BENCH 1.0 数据集则包含6个类别，共计1,538个样本，同样采用多选题形式，但不提供额外背景信息。这两个数据集通过详细分类和多样化的问题设计，确保了对韩语语言模型的全面评估。

使用方法

使用 CLIcK 和 HAE_RAE_BENCH 1.0 数据集进行模型评估时，首先需根据提供的代码框架进行环境配置，包括安装必要的软件包和设置API密钥。随后，通过运行相应的Python脚本，可以对模型进行批量评估，评估结果将自动保存。用户可以根据需要调整参数，如批处理大小、最大令牌数和温度等，以优化评估过程。详细的评估结果和分析可通过提供的Jupyter笔记本进行进一步处理和可视化。

背景与挑战

背景概述

随着各种大型语言模型（LLM）和序列到序列模型（SLM）的不断涌现，对非英语语言（如韩语）的评估数据集需求日益增加。CLIcK（Cultural and Linguistic Intelligence in Korean）和HAE_RAE_BENCH 1.0数据集应运而生，它们专注于文化与语言领域，提供了丰富的分类数据，旨在详细评估韩语语言模型的能力。CLIcK数据集包含1,995个样本，涵盖韩国文化与语言的11个类别，而HAE_RAE_BENCH 1.0则包含1,538个样本，涉及6个类别。这些数据集的创建旨在填补韩语语言模型评估的空白，推动相关领域的发展。

当前挑战

CLIcK和HAE_RAE_BENCH 1.0数据集在构建过程中面临多项挑战。首先，数据集需要涵盖广泛的文化和语言知识，确保评估的全面性。其次，数据集的多样性和代表性问题，如何确保样本能够准确反映韩语的复杂性和多样性，是一个重要挑战。此外，数据集的标注质量和一致性也是关键问题，确保每个样本的标注准确无误，以提高评估的可靠性。最后，数据集的更新和维护也是一个持续的挑战，随着语言和文化的变化，数据集需要不断更新以保持其时效性和相关性。

常用场景

经典使用场景

CLIcK 和 HAE_RAE_BENCH 1.0 数据集的经典使用场景主要集中在评估大型语言模型（LLM）和智能语言模型（SLM）在韩语处理中的表现。这些数据集通过提供丰富的文化与语言知识，帮助研究人员和开发者详细评估模型在韩语文化、历史、地理、法律、政治、社会、传统、经济、流行文化以及语言功能和语法等多个领域的理解能力。通过这些数据集，可以系统地衡量模型在处理韩语时的准确性和深度，从而为模型的优化和改进提供科学依据。

解决学术问题

CLIcK 和 HAE_RAE_BENCH 1.0 数据集解决了非英语语言模型评估中的一个关键学术问题，即缺乏针对特定语言（如韩语）的全面评估工具。这些数据集通过提供多任务、多类别的评估题目，填补了这一空白，使得研究人员能够更精确地衡量和比较不同模型在韩语处理中的表现。这不仅有助于推动韩语自然语言处理（NLP）领域的发展，也为其他非英语语言的模型评估提供了宝贵的参考和方法论。

实际应用

在实际应用中，CLIcK 和 HAE_RAE_BENCH 1.0 数据集被广泛用于开发和优化面向韩语用户的智能助手、翻译系统、教育工具和内容推荐系统。通过这些数据集的评估，开发者可以确保其产品在处理韩语时具有高度的准确性和用户友好性。此外，这些数据集还被用于企业内部的智能客服系统，帮助提升客户服务质量和效率。

数据集最近研究