Ko-ComplexBench

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/ohyurim/Ko-ComplexBench

下载链接

链接失效反馈

官方服务：

资源简介：

Ko-ComplexBench是一个韩语基准数据集，用于评估大型语言模型在复杂指令遵循方面的表现。该数据集包含1049条韩语复杂指令，每条指令都有组合约束，并且每个条目都附带评估问题用于细粒度性能分析。数据集的字段包括唯一标识符、韩语复杂指令、任务类型、约束维度、组合类型和评估问题。

创建时间：

2025-09-06

原始信息汇总

Ko-ComplexBench 数据集概述

数据集简介

Ko-ComplexBench 是一个用于评估大语言模型（LLMs）在复杂指令遵循方面性能的韩语基准数据集。该数据集基于 ComplexBench 进行适配，实现了对韩国文化和语言背景的本地化对齐。

数据集规模

包含 1,049 条韩语指令
每条指令均包含组合约束（And、Chain、Selection、Sub）
每个条目都配有评估问题（scoring_questions），用于细粒度性能分析

数据结构

特征字段

main_id：唯一标识符（int64）
instruction_ko：韩语复杂指令（string）
task_types：任务类型（如 Practical Writing、Creative Writing 等）（string）
constraint_dimensions：约束维度（如 Consistency、Supportiveness 等）（sequence of string）
composition_types：组合类型（And、Chain、Selection、Sub）（sequence of string）
scoring_questions：韩语评估问题（list）
- point_id：评分点标识（int64）
- question_ko：评估问题（string）
- rule_ko：评分规则（string）

数据划分

训练集（train）：1,049 个样本，1,831,947 字节

技术信息

下载大小：907,646 字节
数据集大小：1,831,947 字节
许可证：CC BY 4.0

数据示例

json { "main_id": 0, "instruction_ko": "배경: ...", "task_types": "Practical Writing", "constraint_dimensions": ["Consistency", "Supportiveness", "Template"], "composition_types": ["And"], "scoring_questions": [ { "point_id": 0, "question_ko": "모델의 응답이 지시된 형식 요구사항을 충족했습니까?", "rule_ko": null } ] }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大语言模型对复杂指令的理解能力至关重要。Ko-ComplexBench基于英文原版ComplexBench，通过文化适应和语言本地化过程构建，将原始指令转化为符合韩国语言习惯和文化背景的韩文版本。构建过程中注重保持指令的复杂性和多样性，确保每个条目包含组合约束和评估问题，最终形成包含1049条高质量韩文指令的数据集。

特点

该数据集专为评估大语言模型在韩语环境下的复杂指令遵循能力而设计。其核心特征体现在多维度约束体系，包含一致性、支持性和模板等约束维度，以及And、Chain、Selection和Sub四种组合类型。每条指令均配备精细化的评分问题，能够对模型表现进行细粒度分析，覆盖实用写作、创意写作等多种任务类型，为模型评估提供全面而深入的视角。

使用方法

研究人员可利用该数据集对大语言模型的韩语指令理解能力进行系统性评估。使用时首先加载数据集，通过instruction_ko字段获取韩语指令，结合constraint_dimensions和composition_types分析模型处理复杂约束的能力。scoring_questions字段提供的评估问题可用于构建自动化评分体系，通过多维度指标全面衡量模型在遵循复杂指令方面的表现，推动韩语自然语言处理技术的发展。

背景与挑战

背景概述

随着大语言模型在多语言环境下的广泛应用，针对韩语复杂指令理解能力的评估需求日益凸显。Ko-ComplexBench数据集应运而生，由研究团队基于ComplexBench框架进行文化适应性改造，于2023年推出。该数据集聚焦大语言模型在韩语复杂指令跟随任务中的表现评估，涵盖实用写作、创意写作等多任务类型，通过精心设计的组合约束机制推动韩语自然语言处理领域的发展。

当前挑战

该数据集核心挑战在于解决韩语复杂指令的多维度评估问题，包括组合约束的语义解析、文化语境适配性验证以及细粒度评分体系的构建。在数据构建过程中，研究者需要克服韩语敬语体系与方言变体的语言学复杂性，确保指令与评分规则的文化适应性，同时维持原始数据集的理论框架与韩语语言特性之间的平衡。

常用场景

经典使用场景

在自然语言处理领域，Ko-ComplexBench作为韩语复杂指令理解的标准评测集，主要用于评估大语言模型对多约束复合指令的执行能力。其典型应用场景包括测试模型在组合性约束（如逻辑与、链式、选择型结构）下的语义解析与生成质量，特别是在需要同时满足一致性、支持性和模板化要求的复杂任务中展现核心价值。

解决学术问题

该数据集有效解决了跨语言复杂指令理解的评估标准化问题，为韩语自然语言处理研究提供了细粒度性能分析框架。通过量化模型在组合约束条件下的执行精度，它填补了非英语语境下指令跟随能力评估的空白，推动了多语言语言模型的可解释性研究与约束优化算法的创新。

衍生相关工作

基于该数据集衍生的经典研究包括韩语约束满足推理框架K-CSR、多模态指令评估体系KoMultiBench等。这些工作扩展了组合指令的理论建模边界，推动了文化适配性评估指标的发展，并为东亚语言复杂推理任务的技术路线提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集