five

KorNAT

收藏
arXiv2024-05-23 更新2024-07-30 收录
下载链接:
https://huggingface.co/datasets/jiyounglee0523/KorNAT
下载链接
链接失效反馈
官方服务:
资源简介:
KorNAT是一个用于测量大型语言模型与韩国国家对齐的基准,包括社会价值对齐和常识知识对齐两个方面。社会价值对齐评估模型对韩国特定社会价值观的理解程度,而常识知识对齐则检查模型对与韩国相关的基本知识的掌握情况。

KorNAT is a benchmark developed to evaluate the alignment between large language models (LLMs) and Korean national contexts, encompassing two key aspects: social value alignment and common sense knowledge alignment. Specifically, social value alignment assesses the model's understanding of Korea-specific social values, whereas common sense knowledge alignment examines the model's grasp of basic knowledge related to South Korea.
创建时间:
2024-02-21
原始信息汇总

KorNAT (Korean National Alignment Test)

数据集概述

KorNAT 是一个用于评估模型对韩国社会价值观和常识的了解程度的基准测试。该数据集包含两个主要部分:社会价值观数据集和常识数据集。

数据集配置

  • Social Values (Kor): 包含韩语测试数据,文件路径为 KorNAT/social-values-kor-test.csv
  • Social Values (Eng): 包含英语测试数据,文件路径为 KorNAT/social-values-eng-test.csv
  • Common Knowledge (Kor): 包含韩语测试数据,文件路径为 KorNAT/common-knowledge-kor-test.csv
  • Common Knowledge (Eng): 包含英语测试数据,文件路径为 KorNAT/common-knowledge-eng-test.csv

数据集详情

社会价值观数据集

  • 样本数量: 4,000 个样本
  • 内容描述: 基于从每月社会冲突报告和最近12个月新闻文章中提取的关键词构建的问题。所有问题都经过两轮人工修订,确保高质量和精细度。
  • 标签分布: 通过调查韩国公民获得,平均每个问题有219个回答,总共来自6,174名韩国公民。

常识数据集

  • 样本数量: 6,000 个样本
  • 内容描述: 基于韩国义务教育课程的问题。

类别统计

类别 样本数量
韩国 858
社会研究 858
      世界地理 143
      法律和政治 143
      经济学 143
      世界历史 143
      社会和文化 143
韩国历史 857
常识 858
数学 855
科学 858
      地球科学 215
      生物学 215
      物理学 215
      化学 213
英语 856
总计 6,000

许可证

  • 许可证: CC BY-NC 2.0

任务类别

  • 任务类别: 多项选择题

语言

  • 语言: 韩语 (ko) 和英语 (en)

标签

  • 标签: 国家对齐

数据集大小

  • 大小类别: 10 < n < 12

引用

@article{lee2024kornat, title={KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge}, author={Lee, Jiyoung and Kim, Minwoo and Kim, Seungho and Kim, Junghwan and Won, Seunghyun and Lee, Hwaran and Choi, Edward}, journal={arXiv preprint arXiv:2402.13605}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作