KoMT-Bench
收藏Hugging Face2024-08-07 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/LGAI-EXAONE/KoMT-Bench
下载链接
链接失效反馈官方服务:
资源简介:
KoMT-Bench是一个用于评估语言模型在韩语中遵循指令能力的基准数据集。该数据集是通过将MT-Bench数据集翻译成韩语并修改一些问题以反映韩语的特性和文化细微差别而创建的。数据集包括多个类别,如写作、数学和人文科学,每个类别包含多个回合的问题和答案示例。数据集的特征包括问题ID、类别、回合和参考答案。数据集分为训练集,包含80个示例。
创建时间:
2024-08-05
原始信息汇总
KoMT-Bench 数据集概述
基本信息
- 许可证: lgpl-3.0
- 任务类别: question-answering
- 语言: ko
- 数据集大小: n<1K
数据集结构
特征
- question_id: int64
- category: string
- turns: sequence of string
- reference: sequence of string
数据分割
- train:
- num_bytes: 52214
- num_examples: 80
下载和数据集大小
- download_size: 33690
- dataset_size: 52214
标签
- evaluation
- instruction-following
- language model
- LLM-as-a-judge
数据集介绍
KoMT-Bench 是一个用于评估语言模型在韩语中遵循指令能力的基准数据集。该数据集是通过将 MT-Bench 数据集翻译成韩语并修改部分问题以反映韩语的特性和文化细微差别而创建的。在初始翻译和修改后,我们请专家语言学家对我们的基准数据集进行了彻底的审查。
示例
以下是 KoMT-Bench 数据集中的示例:
| 类别 | MT-Bench | KoMT-Bench |
|---|---|---|
| Writing | ||
| 1st Turn | Imagine you are writing a blog post comparing two popular smartphone models. Develop an outline for the blog post, including key points and subheadings to effectively compare and contrast the features, performance, and user experience of the two models. Please answer in fewer than 200 words. | 두 개의 인기 스마트폰 모델을 비교하는 블로그 게시물을 작성한다고 가정합니다. 두 모델의 기능, 성능, 사용자 경험을 효과적으로 비교하고 대조할 수 있도록 핵심 사항과 소제목을 포함하여 블로그 게시물의 개요를 작성하세요. 200자 이내로 답하십시오. |
| 2nd Turn | Take your previous response and rephrase it as a limerick. | 이전 답변을 충청도 사투리로 재작성하십시오. |
| Math | ||
| 1st Turn | When a number is divided by 10, the remainder is 4. What is the remainder when twice the number is divided by 4? | 어떤 숫자를 10으로 나눈 나머지는 4입니다. 그 숫자의 두 배를 4로 나눈 나머지를 구하세요. |
| 2nd Turn | What about when twice the number is divided by 5? | 그 숫자의 두 배를 5로 나누면 어떨까요? |
| Humanities | ||
| 1st Turn | Provide insights into the correlation between economic indicators such as GDP, inflation, and unemployment rates. Explain how fiscal and monetary policies affect those indicators. | GDP, 인플레이션, 실업률과 같은 경제 지표 간의 상관관계에 대한 통찰을 제시하세요. 이러한 지표들에 재정 및 통화 정책이 어떤 영향을 미치는지 설명하세요. |
| 2nd Turn | Now, explain them again like Im five. | 이제 제가 5살이라 생각하고 다시 설명해 주세요. |
模型评估结果
以下是各种语言模型在 KoMT-Bench 上的评估结果:
| EXAONE 3.0 7.8B Inst. | Llama 3.1 8B Inst. | Gemma 2 9B Inst. | QWEN 2 7B Inst. | Phi 3 7B Inst. | Mistral 7B Inst. | |
|---|---|---|---|---|---|---|
| KoMT-Bench | 8.92 | 6.06 | 7.92 | 7.69 | 4.87 | 5.20 |
引用
@misc{KoMT-Bench, author = {LG AI Research}, title = {KoMT-Bench}, year = {2024}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/LGAI-EXAONE/KoMT-Bench}} }
搜集汇总
数据集介绍

构建方式
KoMT-Bench数据集的构建基于MT-Bench的翻译与本地化调整。首先,研究团队将MT-Bench数据集翻译为韩语,并针对韩语的语言特点和文化背景进行了问题修改。随后,为确保数据集的质量和准确性,邀请了语言学专家对翻译和修改后的内容进行了全面审查。这一过程不仅保留了原数据集的评估框架,还使其更贴合韩语使用者的语言习惯和文化背景。
特点
KoMT-Bench数据集的特点在于其专注于韩语语言模型的指令遵循能力评估。数据集包含多个类别的问题,如写作、数学和人文科学,每个问题均以韩语呈现,并经过精心设计以反映韩语的语言特性。此外,数据集还提供了多轮对话形式的问答,能够全面评估模型在复杂语境下的表现。其小规模但高质量的特点使其成为韩语语言模型评估的理想选择。
使用方法
KoMT-Bench数据集的使用方法主要围绕语言模型的评估展开。用户可以通过访问官方GitHub仓库获取评估脚本,并根据提供的示例进行模型测试。数据集中的每个问题均包含多轮对话,用户可以通过模型生成的回答与参考回答进行对比,评估模型在指令遵循、语言理解和生成能力方面的表现。此外,数据集还支持与其他语言模型的性能对比,为研究提供了丰富的基准数据。
背景与挑战
背景概述
KoMT-Bench是由LG AI Research于2024年推出的一个基准数据集,旨在评估语言模型在韩语环境下的指令遵循能力。该数据集基于MT-Bench数据集进行翻译和修改,以反映韩语的语言特点和文化背景。通过专家语言学家的审核,KoMT-Bench确保了其内容的准确性和文化适应性。该数据集的推出为韩语自然语言处理领域提供了重要的评估工具,推动了韩语语言模型的研究与发展。
当前挑战
KoMT-Bench面临的挑战主要体现在两个方面。首先,韩语的语言结构和文化背景与英语等语言存在显著差异,如何在翻译和修改过程中保持原问题的语义一致性和文化适应性是一个复杂的问题。其次,构建过程中需要依赖专家语言学家的审核,以确保数据集的准确性和代表性,这一过程耗时且资源密集。此外,如何设计有效的评估脚本以准确衡量语言模型的指令遵循能力,也是该数据集面临的技术挑战之一。
常用场景
经典使用场景
KoMT-Bench数据集主要用于评估语言模型在韩语环境下的指令遵循能力。该数据集通过翻译并修改MT-Bench数据集,使其适应韩语的语言特点和文化背景,从而为研究者提供了一个标准化的测试平台。经典使用场景包括对模型在写作、数学和人文等领域的多轮对话能力进行评估,确保模型能够准确理解并执行复杂的指令。
衍生相关工作
KoMT-Bench的推出催生了一系列相关研究,特别是在韩语语言模型的评估和优化领域。基于该数据集,研究者开发了多种改进的评估方法和技术,如多轮对话生成和跨语言模型迁移学习。此外,KoMT-Bench还为其他语言的指令遵循数据集提供了参考,推动了全球多语言模型评估标准的统一。
数据集最近研究
最新研究方向
在自然语言处理领域,KoMT-Bench数据集的推出为韩语语言模型的指令遵循能力评估提供了新的基准。该数据集通过将MT-Bench翻译并适应韩语文化背景,确保了评估的多样性和文化相关性。当前研究热点集中在如何利用KoMT-Bench优化多语言模型的性能,特别是在处理韩语特有的语言结构和文化细节方面。此外,该数据集的应用还推动了LLM-as-a-judge评估方法的发展,为模型在特定语言环境下的表现提供了更为精确的评估工具。这些研究不仅提升了韩语语言模型的技术水平,也为全球多语言模型的研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



