five

IFEval-Ko

收藏
Hugging Face2025-04-29 更新2025-05-01 收录
下载链接:
https://huggingface.co/datasets/allganize/IFEval-Ko
下载链接
链接失效反馈
官方服务:
资源简介:
IFEval-Ko是一个韩语版本的指令遵循基准数据集,用于评估大型语言模型(LLM)在韩语中的指令遵循能力。该数据集是基于Google开源的IFEval基准改编而来,并使用lm-evaluation-harness框架进行评估。数据集包括翻译后的提示,移除了一些不合适的任务,并对单位进行了转换和标准化处理。
提供机构:
allganize
创建时间:
2025-04-17
原始信息汇总

IFEval-Ko: 韩语指令遵循基准数据集

数据集概述

  • 来源:基于Google的IFEval数据集
  • 语言:韩语
  • 许可协议:Apache-2.0
  • 任务类别:文本生成
  • 标签:InstructionFollowing, IF
  • 数据规模:n<1K

数据集详情

  • 特征

    • key:int64类型
    • prompt:string类型
    • instruction_id_list:string序列
    • kwargs:包含多个子特征的列表,如end_phrasefirst_wordforbidden_words
  • 数据分割

    • train:342个样本,168406字节

使用方式

  1. 安装依赖: bash git clone --depth 1 https://github.com/EleutherAI/lm-evaluation-harness.git cd lm-evaluation-harness pip install -e . pip install langdetect immutabledict

  2. 下载任务文件: bash python3 -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id=allganize/IFEval-Ko, repo_type=dataset, local_dir=lm_eval/tasks/, allow_patterns=ifeval_ko/*, local_dir_use_symlinks=False)"

  3. 评估模型

    • 使用Hugging Face Transformers: bash lm_eval --model hf --model_args pretrained={HF_MODEL_REPO} --tasks ifeval_ko --device cuda:0 --batch_size 8

    • 使用vLLM: bash lm_eval --model vllm --model_args pretrained={HF_MODEL_REPO},trust_remote_code=True --tasks ifeval_ko

修改内容

  • 数据转换

    • 使用GPT-4o翻译提示
    • 删除84个大小写敏感任务和28个字母依赖任务
    • 单位转换(加仑→升,英尺/英寸→米/厘米,美元→韩元)
    • 标准化标题和回答语气
  • 代码变更

    • 翻译指令选项
    • 修改评分类,移除nltk依赖

评估指标

  • 严格准确率:未经转换的响应检查
  • 宽松准确率:应用3种转换后检查
  • 提示级别:单个提示中的所有指令必须遵循
  • 指令级别:单独评估每个指令

引用信息

bibtex @misc{zhou2023instructionfollowingevaluationlargelanguage, title={Instruction-Following Evaluation for Large Language Models}, author={Jeffrey Zhou and Tianjian Lu and Swaroop Mishra and Siddhartha Brahma and Sujoy Basu and Yi Luan and Denny Zhou and Le Hou}, year={2023}, eprint={2311.07911}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2311.07911}, }

搜集汇总
数据集介绍
main_image_url
构建方式
IFEval-Ko数据集作为韩语指令遵循能力评估的基准,其构建过程体现了跨语言迁移的精确性与文化适应性。该数据集基于Google开源的IFEval基准框架,通过GPT-4o模型进行专业化韩语翻译,并针对韩语语境进行了系统性改造。在数据转换阶段,研究团队移除了84项涉及大小写敏感的任务和28项依赖拉丁字母特征的任务,同时完成计量单位本土化转换(加仑→升、英尺→米等)和货币标准化处理(美元→韩元)。通过统一标题格式<<제목>>和实施文本归一化处理(NFC标准化),确保了数据集的内部一致性。
特点
该数据集的核心特征在于其细粒度的评估维度和文化适配性。342条训练样本覆盖关键词检测、段落首词验证、禁用词识别等17类结构化特征,通过kwargs字段实现多维度参数配置。区别于原版IFEval,韩语版本特别设计了基于unicodedata的文本规范化模块,并移除了nltk依赖项。数据集支持严格准确率(原始响应匹配)和宽松准确率(允许8种文本转换组合)双重评估标准,既可进行整体提示级评估,也能实现单一指令粒度的分析。文化适配性体现在删除了不符合韩语习惯的提示,并采用1:1500汇率进行货币价值转换。
使用方法
使用该数据集需通过lm-evaluation-harness框架实现标准化评估。用户需克隆评估工具库后,从HuggingFace仓库下载ifeval_ko任务文件至指定目录。评估支持HuggingFace Transformers和vLLM两种后端,通过--model_args参数指定模型仓库(如google/gemma-3-4b-it)。关键依赖包括langdetect和immutabledict库,评估时需注意设备分配(如--device cuda:0)和批次控制(--batch_size 8)。数据集保留了原始IFEval的双重评估模式,用户可选择strict/loose精度标准,并通过prompt-level或instruction-level参数控制评估粒度。
背景与挑战
背景概述
IFEval-Ko数据集是Google开源IFEval基准的韩语适配版本,由Allganize公司的LLM团队主导开发,旨在评估大型语言模型(LLM)在韩语环境下的指令遵循能力。该数据集基于Google的IFEval基准,通过GPT-4o进行翻译和本地化处理,保留了原数据集的核心结构,同时针对韩语语言特点进行了优化。IFEval-Ko的创建填补了韩语指令遵循评估领域的空白,为韩语自然语言处理研究提供了重要的基准工具。
当前挑战
IFEval-Ko数据集面临的主要挑战包括:1) 跨语言迁移中的文化适配问题,如单位换算(加仑到升、美元到韩元)和语言习惯调整;2) 韩语特有的语言特征处理,如敬语体系和拼写规范化;3) 评估指标的本土化改造,需在保留原数据集严谨性的同时适应韩语语法特性。此外,数据构建过程中还需解决机器翻译导致的语义偏差和结构失真问题,确保评估结果的可靠性。
常用场景
经典使用场景
在自然语言处理领域,IFEval-Ko数据集被广泛用于评估大型语言模型在韩语环境下的指令遵循能力。通过该数据集,研究者可以系统地测试模型对复杂指令的理解与执行准确度,特别是在多轮对话和结构化文本生成任务中。数据集包含丰富的指令类型和约束条件,为模型性能的全面评估提供了标准化基准。
衍生相关工作
基于IFEval-Ko的评估框架,研究者已开发出改进型韩语模型微调方案。Allganize团队提出的NFC标准化处理方法被后续研究广泛采用,其改造的关键词检查器(KeywordChecker)等组件成为韩语评估工具链的标准模块。该数据集还启发了对朝鲜语等相似语言评估体系的构建工作。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言指令遵循能力的评估正成为大型语言模型研究的关键方向。IFEval-Ko作为韩语指令遵循评估基准,为探索跨语言指令理解与执行机制提供了重要工具。当前研究聚焦于模型在非英语语境下的细粒度指令解析能力,特别是针对文化适配性转换后的复杂约束条件处理。该数据集通过严格与宽松双重评估标准,推动了多语言环境下指令遵循评估范式的创新,相关成果已应用于Gemma等开源模型的韩语能力优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作