KoMT-Bench
收藏魔搭社区2026-01-06 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/LGAI-EXAONE/KoMT-Bench
下载链接
链接失效反馈官方服务:
资源简介:
# KoMT-Bench
## Introduction
We present **KoMT-Bench**, a benchmark designed to evaluate the capability of language models in following instructions in Korean.
KoMT-Bench is an in-house dataset created by translating [MT-Bench](https://arxiv.org/abs/2306.05685) [1] dataset into Korean and modifying some questions to reflect the characteristics and cultural nuances of the Korean language.
After the initial translation and modification, we requested expert linguists to conduct a thorough review of our benchmark dataset.
To conduct evaluations on KoMT-Bench, please visit the official KoMT-Bench [GitHub repository](https://github.com/LG-AI-EXAONE/KoMT-Bench) in which the evaluation scripts are provided.
<p>Here are examples from KoMT-Bench:</p>
<table>
<tr>
<th>Category</th>
<th>MT-Bench</th>
<th>KoMT-Bench</th>
</tr>
<tr height=40>
<th>Writing</th>
<!-- <th>MT-Bench</th>
<th>KoMT-Bench</th> -->
<th></th>
<th></th>
</tr>
<tr>
<td align="center">1st Turn</td>
<td>Imagine you are writing a blog post comparing two popular smartphone models. Develop an outline for the blog post, including key points and subheadings to effectively compare and contrast the features, performance, and user experience of the two models. Please answer in fewer than 200 words.</td>
<td>두 개의 인기 스마트폰 모델을 비교하는 블로그 게시물을 작성한다고 가정합니다. 두 모델의 기능, 성능, 사용자 경험을 효과적으로 비교하고 대조할 수 있도록 핵심 사항과 소제목을 포함하여 블로그 게시물의 개요를 작성하세요. 200자 이내로 답하십시오.</td>
</tr>
<tr>
<td align="center">2nd Turn</td>
<td>Take your previous response and rephrase it as a limerick.</td>
<td>이전 답변을 충청도 사투리로 재작성하십시오.</td>
</tr>
<tr height=40>
<th>Math</th>
<!-- <th>MT-Bench</th>
<th>KoMT-Bench</th> -->
<th></th>
<th></th>
</tr>
<tr>
<td align="center">1st Turn</td>
<td>When a number is divided by 10, the remainder is 4. What is the remainder when twice the number is divided by 4?</td>
<td>어떤 숫자를 10으로 나눈 나머지는 4입니다. 그 숫자의 두 배를 4로 나눈 나머지를 구하세요.</td>
</tr>
<tr>
<td align="center">2nd Turn</td>
<td>What about when twice the number is divided by 5?</td>
<td>그 숫자의 두 배를 5로 나누면 어떨까요?</td>
</tr>
<tr height=40>
<th>Humanities</th>
<!-- <th>MT-Bench</th>
<th>KoMT-Bench</th> -->
<th></th>
<th></th>
</tr>
<tr>
<td align="center">1st Turn</td>
<td>Provide insights into the correlation between economic indicators such as GDP, inflation, and unemployment rates. Explain how fiscal and monetary policies affect those indicators.</td>
<td>GDP, 인플레이션, 실업률과 같은 경제 지표 간의 상관관계에 대한 통찰을 제시하세요. 이러한 지표들에 재정 및 통화 정책이 어떤 영향을 미치는지 설명하세요.</td>
</tr>
<tr>
<td align="center">2nd Turn</td>
<td>Now, explain them again like I'm five.</td>
<td>이제 제가 5살이라 생각하고 다시 설명해 주세요.</td>
</tr>
</table>
<br>
## Models Results
Here are the evaluation results of various language models including [EXAONE 3.0 7.8B instruction-tuned model](https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct) on KoMT-Bench. Please refer to [EXAONE 3.0 technical report](https://arxiv.org/abs/2408.03541) for details.
| | EXAONE 3.0 7.8B Inst. | Llama 3.1 8B Inst. | Gemma 2 9B Inst. | QWEN 2 7B Inst. | Phi 3 7B Inst. | Mistral 7B Inst. |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| KoMT-Bench | **8.92** | 6.06 | 7.92 | 7.69 | 4.87 | 5.20 |
<br>
## References
[1] Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, Hao Zhang, Joseph E Gonzalez, and Ion Stoica. Judging llm-as-a-judge with mt-bench and chatbot arena. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, editors, Advances in Neural Information Processing Systems, volume 36, pages 46595–46623. Curran Associates, Inc., 2023.
<br>
## Citation
```
@misc{KoMT-Bench,
author = {LG AI Research},
title = {KoMT-Bench},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/datasets/LGAI-EXAONE/KoMT-Bench}}
}
```
# KoMT-Bench
## 简介
我们推出**KoMT-Bench**,一款专为评估大语言模型(Large Language Model)韩语指令遵循能力而设计的基准测试集。
KoMT-Bench为自研数据集,其通过将[MT-Bench](https://arxiv.org/abs/2306.05685) [1] 基准数据集译为韩语,并针对韩语的语言特性与文化细节对部分问题进行适配修改后构建而成。在完成初步翻译与修改后,我们邀请了专业语言学家对该基准测试集进行了全面的审核校验。
如需使用KoMT-Bench开展模型评估,请访问KoMT-Bench官方[GitHub仓库](https://github.com/LG-AI-EXAONE/KoMT-Bench),其中已附带完整的评估脚本。
以下为KoMT-Bench的部分示例:
| 类别 | MT-Bench | KoMT-Bench |
| :---: | :---: | :---: |
| **写作** | | |
| 第一轮 | 假设你正在撰写一篇对比两款热门智能手机机型的博客文章,请为该博文拟定大纲,涵盖核心要点与小标题,以有效对比两款机型的功能、性能与用户体验,作答字数需控制在200字以内。 | 두 개의 인기 스마트폰 모델을 비교하는 블로그 게시물을 작성한다고 가정합니다. 두 모델의 기능, 성능, 사용자 경험을 효과적으로 비교하고 대조할 수 있도록 핵심 사항과 소제목을 포함하여 블로그 게시물의 개요를 작성하세요. 200자 이내로 답하십시오. |
| 第二轮 | 基于你刚才的回复,将其改写为一首五行打油诗。 | 이전 답변을 충청도 사투리로 재작성하십시오. |
| **数学** | | |
| 第一轮 | 若某整数除以10的余数为4,试问该整数的两倍除以4的余数为多少? | 어떤 숫자를 10으로 나눈 나머지는 4입니다. 그 숫자의 두 배를 4로 나눈 나머지를 구하세요. |
| 第二轮 | 若将该整数的两倍除以5,则余数为多少? | 그 숫자의 두 배를 5로 나누면 어떨까요? |
| **人文社科** | | |
| 第一轮 | 请阐述GDP、通货膨胀率与失业率等经济指标间的相关性,并解释财政政策与货币政策将如何对这些指标产生影响。 | GDP, 인플레이션, 실업률과 같은 경제 지표 간의 상관관계에 대한 통찰을 제시하세요. 이러한 지표들에 재정 및 통화 정책이 어떤 영향을 미치는지 설명하세요. |
| 第二轮 | 现在,请以我年仅5岁的视角重新解释上述内容。 | 이제 제가 5살이라 생각하고 다시 설명해 주세요. |
<br>
## 模型评估结果
以下为包括[EXAONE 3.0 7.8B 指令微调模型](https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct)在内的多款大语言模型在KoMT-Bench上的评估结果,详细信息可参考[EXAONE 3.0技术报告](https://arxiv.org/abs/2408.03541)。
| | EXAONE 3.0 7.8B 指令微调模型 | Llama 3.1 8B 指令微调模型 | Gemma 2 9B 指令微调模型 | QWEN 2 7B 指令微调模型 | Phi 3 7B 指令微调模型 | Mistral 7B 指令微调模型 |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| KoMT-Bench | **8.92** | 6.06 | 7.92 | 7.69 | 4.87 | 5.20 |
<br>
## 参考文献
[1] Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, Hao Zhang, Joseph E Gonzalez, and Ion Stoica. Judging llm-as-a-judge with mt-bench and chatbot arena// Advances in Neural Information Processing Systems, vol. 36. Curran Associates, Inc., 2023: 46595–46623.
<br>
## 引用格式
@misc{KoMT-Bench,
author = {LG AI Research},
title = {KoMT-Bench},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {url{https://huggingface.co/datasets/LGAI-EXAONE/KoMT-Bench}}
}
提供机构:
maas
创建时间:
2025-07-16



