HAERAE-HUB/K2-Eval
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HAERAE-HUB/K2-Eval
下载链接
链接失效反馈官方服务:
资源简介:
(K^{2} Eval)是一个新颖的基准测试,包含90个手写指令,要求深入理解韩国语言和文化才能准确完成。数据集的设计原则是收集需要特定韩国文化和背景知识来解决的指令,这与简单的翻译基准测试不同。数据集包括问题、评分标准、评估标准和黄金参考答案。数据集的创建过程涉及定义九种不同的韩国知识类型和七种推理能力,确保每个任务都结合了一种知识类型和推理能力。基准测试的可分离性分析显示,(K^{2} Eval)的可分离性为73.76%,超过了MT-Bench和LogicKor。基准测试结果表明,HyperCLOVA X在基准测试中表现最佳,强调了使用韩国数据进行针对性指令调优的重要性。
提供机构:
HAERAE-HUB
原始信息汇总
K² Eval 数据集概述
数据集配置
- 配置名称: generation
- 数据文件:
- 分割: test
- 路径: data/k2-eval-generation.csv
- 数据文件:
- 配置名称: knowledge
- 数据文件:
- 分割: test
- 路径: data/k2-eval-knowledge.csv
- 数据文件:
许可证
- 许可证: MIT
数据集设计
- 知识类型: 定义了九种不同的韩国知识类型。
- 推理能力: 定义了七种推理能力。
- 任务设计: 每个任务结合一种知识类型和一种推理能力。
- 评分标准: 设计了评分标准和评估标准,共15种。
- 参考答案: 使用GPT-4和搜索增强的思维链技术创建,并由两位作者进行质量筛选。
数据集分布
| 知识类型 | 推理类型 | 实例数量 |
|---|---|---|
| 艺术 | 同理心推理 | 5 |
| 烹饪 | 头脑风暴 | 5 |
| 烹饪 | 因果分析 | 5 |
| 文化与传统 | 比较分析 | 5 |
| 地理 | 因果分析 | 5 |
| 地理 | 比较分析 | 5 |
| 地理 | 数值估计 | 5 |
| 历史 | 创意写作 | 5 |
| 历史 | 数值估计 | 10 |
| 语言学 | 因果分析 | 5 |
| 语言学 | 同理心推理 | 5 |
| 文学 | 比较分析 | 5 |
| 文学 | 创意写作 | 10 |
| 政治与经济 | 提出解决方案 | 5 |
| 社会问题 | 提出解决方案 | 10 |
数据集可分性
- 可分性: 73.76%
- 模型数量: 31
- 实例数量: 90
数据集结果
- 评分方式: 15名人类评委根据评分标准和参考答案对模型响应进行1至5分评分,每个响应至少评分两次。
- 最佳模型: HyperCLOVA X
- 发现: 针对韩语数据的定向指令调优的重要性。



