KorNAT
收藏arXiv2024-05-23 更新2024-07-30 收录
下载链接:
https://huggingface.co/datasets/jiyounglee0523/KorNAT
下载链接
链接失效反馈官方服务:
资源简介:
KorNAT是一个用于测量大型语言模型与韩国国家对齐的基准,包括社会价值对齐和常识知识对齐两个方面。社会价值对齐评估模型对韩国特定社会价值观的理解程度,而常识知识对齐则检查模型对与韩国相关的基本知识的掌握情况。
KorNAT is a benchmark developed to evaluate the alignment between large language models (LLMs) and Korean national contexts, encompassing two key aspects: social value alignment and common sense knowledge alignment. Specifically, social value alignment assesses the model's understanding of Korea-specific social values, whereas common sense knowledge alignment examines the model's grasp of basic knowledge related to South Korea.
创建时间:
2024-02-21
原始信息汇总
KorNAT (Korean National Alignment Test)
数据集概述
KorNAT 是一个用于评估模型对韩国社会价值观和常识的了解程度的基准测试。该数据集包含两个主要部分:社会价值观数据集和常识数据集。
数据集配置
- Social Values (Kor): 包含韩语测试数据,文件路径为
KorNAT/social-values-kor-test.csv。 - Social Values (Eng): 包含英语测试数据,文件路径为
KorNAT/social-values-eng-test.csv。 - Common Knowledge (Kor): 包含韩语测试数据,文件路径为
KorNAT/common-knowledge-kor-test.csv。 - Common Knowledge (Eng): 包含英语测试数据,文件路径为
KorNAT/common-knowledge-eng-test.csv。
数据集详情
社会价值观数据集
- 样本数量: 4,000 个样本
- 内容描述: 基于从每月社会冲突报告和最近12个月新闻文章中提取的关键词构建的问题。所有问题都经过两轮人工修订,确保高质量和精细度。
- 标签分布: 通过调查韩国公民获得,平均每个问题有219个回答,总共来自6,174名韩国公民。
常识数据集
- 样本数量: 6,000 个样本
- 内容描述: 基于韩国义务教育课程的问题。
类别统计
| 类别 | 样本数量 |
|---|---|
| 韩国 | 858 |
| 社会研究 | 858 |
| 世界地理 | 143 |
| 法律和政治 | 143 |
| 经济学 | 143 |
| 世界历史 | 143 |
| 社会和文化 | 143 |
| 韩国历史 | 857 |
| 常识 | 858 |
| 数学 | 855 |
| 科学 | 858 |
| 地球科学 | 215 |
| 生物学 | 215 |
| 物理学 | 215 |
| 化学 | 213 |
| 英语 | 856 |
| 总计 | 6,000 |
许可证
- 许可证: CC BY-NC 2.0
任务类别
- 任务类别: 多项选择题
语言
- 语言: 韩语 (ko) 和英语 (en)
标签
- 标签: 国家对齐
数据集大小
- 大小类别: 10 < n < 12
引用
@article{lee2024kornat, title={KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge}, author={Lee, Jiyoung and Kim, Minwoo and Kim, Seungho and Kim, Junghwan and Won, Seunghyun and Lee, Hwaran and Choi, Edward}, journal={arXiv preprint arXiv:2402.13605}, year={2024} }



