IFEval-Ko

Name: IFEval-Ko
Creator: allganize
Published: 2025-04-29 14:10:10
License: 暂无描述

Hugging Face2025-04-29 更新2025-05-01 收录

下载链接：

https://huggingface.co/datasets/allganize/IFEval-Ko

下载链接

链接失效反馈

官方服务：

资源简介：

IFEval-Ko是一个韩语版本的指令遵循基准数据集，用于评估大型语言模型（LLM）在韩语中的指令遵循能力。该数据集是基于Google开源的IFEval基准改编而来，并使用lm-evaluation-harness框架进行评估。数据集包括翻译后的提示，移除了一些不合适的任务，并对单位进行了转换和标准化处理。

提供机构：

allganize

创建时间：

2025-04-17

原始信息汇总

IFEval-Ko: 韩语指令遵循基准数据集

数据集概述

来源：基于Google的IFEval数据集
语言：韩语
许可协议：Apache-2.0
任务类别：文本生成
标签：InstructionFollowing, IF
数据规模：n<1K

数据集详情

特征：
- key：int64类型
- prompt：string类型
- instruction_id_list：string序列
- kwargs：包含多个子特征的列表，如end_phrase、first_word、forbidden_words等
数据分割：
- train：342个样本，168406字节

使用方式

安装依赖： bash git clone --depth 1 https://github.com/EleutherAI/lm-evaluation-harness.git cd lm-evaluation-harness pip install -e . pip install langdetect immutabledict
下载任务文件： bash python3 -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id=allganize/IFEval-Ko, repo_type=dataset, local_dir=lm_eval/tasks/, allow_patterns=ifeval_ko/*, local_dir_use_symlinks=False)"
评估模型：
- 使用Hugging Face Transformers： bash lm_eval --model hf --model_args pretrained={HF_MODEL_REPO} --tasks ifeval_ko --device cuda:0 --batch_size 8
- 使用vLLM： bash lm_eval --model vllm --model_args pretrained={HF_MODEL_REPO},trust_remote_code=True --tasks ifeval_ko

修改内容

数据转换：
- 使用GPT-4o翻译提示
- 删除84个大小写敏感任务和28个字母依赖任务
- 单位转换（加仑→升，英尺/英寸→米/厘米，美元→韩元）
- 标准化标题和回答语气
代码变更：
- 翻译指令选项
- 修改评分类，移除nltk依赖

评估指标

严格准确率：未经转换的响应检查
宽松准确率：应用3种转换后检查
提示级别：单个提示中的所有指令必须遵循
指令级别：单独评估每个指令

引用信息

bibtex @misc{zhou2023instructionfollowingevaluationlargelanguage, title={Instruction-Following Evaluation for Large Language Models}, author={Jeffrey Zhou and Tianjian Lu and Swaroop Mishra and Siddhartha Brahma and Sujoy Basu and Yi Luan and Denny Zhou and Le Hou}, year={2023}, eprint={2311.07911}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2311.07911}, }

搜集汇总

数据集介绍

构建方式

IFEval-Ko数据集作为韩语指令遵循能力评估的基准，其构建过程体现了跨语言迁移的精确性与文化适应性。该数据集基于Google开源的IFEval基准框架，通过GPT-4o模型进行专业化韩语翻译，并针对韩语语境进行了系统性改造。在数据转换阶段，研究团队移除了84项涉及大小写敏感的任务和28项依赖拉丁字母特征的任务，同时完成计量单位本土化转换（加仑→升、英尺→米等）和货币标准化处理（美元→韩元）。通过统一标题格式<<제목>>和实施文本归一化处理（NFC标准化），确保了数据集的内部一致性。

特点

该数据集的核心特征在于其细粒度的评估维度和文化适配性。342条训练样本覆盖关键词检测、段落首词验证、禁用词识别等17类结构化特征，通过kwargs字段实现多维度参数配置。区别于原版IFEval，韩语版本特别设计了基于unicodedata的文本规范化模块，并移除了nltk依赖项。数据集支持严格准确率（原始响应匹配）和宽松准确率（允许8种文本转换组合）双重评估标准，既可进行整体提示级评估，也能实现单一指令粒度的分析。文化适配性体现在删除了不符合韩语习惯的提示，并采用1:1500汇率进行货币价值转换。

使用方法

使用该数据集需通过lm-evaluation-harness框架实现标准化评估。用户需克隆评估工具库后，从HuggingFace仓库下载ifeval_ko任务文件至指定目录。评估支持HuggingFace Transformers和vLLM两种后端，通过--model_args参数指定模型仓库（如google/gemma-3-4b-it）。关键依赖包括langdetect和immutabledict库，评估时需注意设备分配（如--device cuda:0）和批次控制（--batch_size 8）。数据集保留了原始IFEval的双重评估模式，用户可选择strict/loose精度标准，并通过prompt-level或instruction-level参数控制评估粒度。

背景与挑战

背景概述

IFEval-Ko数据集是Google开源IFEval基准的韩语适配版本，由Allganize公司的LLM团队主导开发，旨在评估大型语言模型（LLM）在韩语环境下的指令遵循能力。该数据集基于Google的IFEval基准，通过GPT-4o进行翻译和本地化处理，保留了原数据集的核心结构，同时针对韩语语言特点进行了优化。IFEval-Ko的创建填补了韩语指令遵循评估领域的空白，为韩语自然语言处理研究提供了重要的基准工具。

当前挑战

IFEval-Ko数据集面临的主要挑战包括：1) 跨语言迁移中的文化适配问题，如单位换算（加仑到升、美元到韩元）和语言习惯调整；2) 韩语特有的语言特征处理，如敬语体系和拼写规范化；3) 评估指标的本土化改造，需在保留原数据集严谨性的同时适应韩语语法特性。此外，数据构建过程中还需解决机器翻译导致的语义偏差和结构失真问题，确保评估结果的可靠性。

常用场景

经典使用场景

在自然语言处理领域，IFEval-Ko数据集被广泛用于评估大型语言模型在韩语环境下的指令遵循能力。通过该数据集，研究者可以系统地测试模型对复杂指令的理解与执行准确度，特别是在多轮对话和结构化文本生成任务中。数据集包含丰富的指令类型和约束条件，为模型性能的全面评估提供了标准化基准。

衍生相关工作

基于IFEval-Ko的评估框架，研究者已开发出改进型韩语模型微调方案。Allganize团队提出的NFC标准化处理方法被后续研究广泛采用，其改造的关键词检查器（KeywordChecker）等组件成为韩语评估工具链的标准模块。该数据集还启发了对朝鲜语等相似语言评估体系的构建工作。

数据集最近研究