IFEval_tr

Hugging Face2024-08-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/bezir/IFEval_tr

下载链接

链接失效反馈

官方服务：

资源简介：

IFEval_tr数据集是IFEval数据集的土耳其语版本，包含人工标注和翻译的原始数据集条目，以及从头开始创建的新条目（ID > 5000）。该数据集不包含需要模型以特定语言响应的任务，专注于土耳其语认知能力。数据集包含350个可验证的指令，基于Instruction-Following Eval (IFEval)基准论文中提出的方法生成。这些指令包括通过启发式方法生成的任务，如‘写一个超过400字的答案’或‘在响应中至少包含单词‘artificial’3次’。数据集支持的任务和排行榜显示了具有对话能力的模型（通过指令训练）的性能。

创建时间：

2024-08-14

原始信息汇总

数据集卡片 for IFEval_tr

数据集描述

IFEval_tr 是 IFEval 数据集的土耳其语本地化版本。它包含原始数据集的人工标注和人工翻译版本，以及全新创建的条目（ID > 5000）。该数据集排除了需要模型以特定语言响应的任务，专注于土耳其语认知能力。

数据集摘要

该数据集包含 350 条“可验证指令”，基于 Instruction-Following Eval (IFEval) 基准论文中提出的方法。它包括通过启发式方法生成的可验证指令，例如“写一个超过 400 字的答案”或“在响应中至少包含单词 artificial 3 次”。

支持的任务和排行榜

IFEval-tr 数据集是具有对话能力的模型（通过指令训练）的核心测试基准，类似于原始数据集。

数据集结构

数据实例

一个 train 分割的示例如下：

json { "key": 1000, "prompt": "https://tr.wikipedia.org/wiki/Gelibolu Wikipedia sayfasının 300 kelime ya da daha uzun bir özetini yaz. Cevabında virgül kullanma ve en az 3 bölümü verdiğim örnek biçiminde vurgula. Örnek vurgu: vurgulanan bölüm 1 vurgulanan bölüm 2 vurgulanan bölüm 3.", "instruction_id_list": [ "punctuation:no_comma", "detectable_format:number_highlighted_sections", "length_constraints:number_words" ], "kwargs": [ { "num_highlights": None, "relation": None, "num_words": None, "num_placeholders": None, "prompt_to_repeat": None, "num_bullets": None, "section_spliter": None, "num_sections": None, "capital_relation": None, "capital_frequency": None, "keywords": None, "num_paragraphs": None, "language": None, "let_relation": None, "letter": None, "let_frequency": None, "end_phrase": None, "forbidden_words": None, "keyword": None, "frequency": None, "num_sentences": None, "postscript_marker": None, "first_word": None, "nth_paragraph": None }, { "num_highlights": 3, "relation": None, "num_words": None, "num_placeholders": None, "prompt_to_repeat": None, "num_bullets": None, "section_spliter": None, "num_sections": None, "capital_relation": None, "capital_frequency": None, "keywords": None, "num_paragraphs": None, "language": None, "let_relation": None, "letter": None, "let_frequency": None, "end_phrase": None, "forbidden_words": None, "keyword": None, "frequency": None, "num_sentences": None, "postscript_marker": None, "first_word": None, "nth_paragraph": None }, { "num_highlights": None, "relation": "at least", "num_words": 300, "num_placeholders": None, "prompt_to_repeat": None, "num_bullets": None, "section_spliter": None, "num_sections": None, "capital_relation": None, "capital_frequency": None, "keywords": None, "num_paragraphs": None, "language": None, "let_relation": None, "letter": None, "let_frequency": None, "end_phrase": None, "forbidden_words": None, "keyword": None, "frequency": None, "num_sentences": None, "postscript_marker": None, "first_word": None, "nth_paragraph": None } ] }

数据字段

数据字段如下：

key: 提示的唯一 ID。ID > 5000 对应于从零开始创建的条目，其他可能对应于原始数据集。
prompt: 描述模型应执行的任务。
instruction_id_list: 可验证指令的数组。请参阅论文中的表 1 以获取完整集合及其描述。
kwargs: 用于指定 instruction_id_list 中每个可验证指令的参数数组。

数据分割

	train
IFEval	350

测试

测试环境是通过在 LM Evaluation Harness 仓库中更新 IFEval 任务为土耳其语来设置的。代码将很快开源。评分是 inst_level_strict_acc 和 prompt_level_strict_acc 的平均值。

IFEval-TR 排行榜

模型	IFEval 土耳其语得分
google/gemma-2-9b-it	39.65
gemma-2-2b-it	31.06
Qwen/Qwen2-7B-Instruct	29.05
meta-llama/Meta-Llama-3.1-8B-Instruct	26.99
Metin/LLaMA-3-8B-Instruct-TR-DPO	25.47
ytu-ce-cosmos/Turkish-Llama-8b-Instruct-v0.1	25.18
mistralai/Mistral-7B-Instruct-v0.3	21.78
VeriUS/VeriUS-LLM-8b-v0.2	19.73
Trendyol/Trendyol-LLM-7b-chat-v1.8	19.26

许可信息

该数据集在 Apache 2.0 许可证下提供。

引用信息

plaintext @misc{zhou2023instructionfollowingevaluationlargelanguage, title={Instruction-Following Evaluation for Large Language Models}, author={Jeffrey Zhou and Tianjian Lu and Swaroop Mishra and Siddhartha Brahma and Sujoy Basu and Yi Luan and Denny Zhou and Le Hou}, year={2023}, eprint={2311.07911}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2311.07911}, } @misc{IFEval_tr, author = {Abdullah Bezir}, title = {bezir/IFEval_tr}, year = {2024}, publisher = {Abdullah Bezir}, howpublished = {https://huggingface.co/datasets/bezir/IFEval_tr} }

搜集汇总

数据集介绍

构建方式

IFEval_tr数据集是基于IFEval基准的土耳其语本地化版本，旨在评估模型在土耳其语环境下的认知能力。该数据集包含350条可验证的指令，这些指令通过启发式方法生成，例如要求模型生成超过400字的回答或在回答中至少包含三次特定词汇。数据集的构建过程包括人工注释和翻译原始数据集，以及从零开始创建新的条目（ID > 5000）。

特点

IFEval_tr数据集的特点在于其专注于土耳其语的认知能力评估，排除了需要特定语言响应的任务。数据集中的每条指令都附有详细的验证条件，如字数限制、特定词汇的使用次数等，这些条件通过`instruction_id_list`和`kwargs`字段进行详细描述。此外，数据集还提供了独特的ID标识符，便于区分原始数据集条目和新创建的条目。

使用方法

使用IFEval_tr数据集时，可以通过Hugging Face的`datasets`库加载数据集。加载后，用户可以利用数据集中的`prompt`字段进行模型训练或评估，`instruction_id_list`和`kwargs`字段则提供了详细的验证条件，帮助用户评估模型在遵循复杂指令方面的表现。数据集的结构设计使得它特别适合用于测试具有对话能力的模型，尤其是在土耳其语环境下的表现。

背景与挑战

背景概述

IFEval_tr数据集是IFEval数据集的土耳其语本地化版本，专注于评估模型在土耳其语环境下的认知能力。该数据集由Abdullah Bezir等人于2024年创建，旨在通过人类注释和翻译的原始数据集条目以及全新创建的任务，评估模型在遵循指令方面的表现。数据集的核心研究问题在于如何通过可验证的指令（如“写出超过400字的回答”或“在回答中包含‘artificial’一词至少3次”）来测试模型的语言理解和执行能力。IFEval_tr的发布为土耳其语自然语言处理领域提供了重要的基准测试工具，推动了该领域的研究进展。

当前挑战

IFEval_tr数据集面临的挑战主要体现在两个方面。首先，数据集旨在解决模型在土耳其语环境下的指令遵循能力问题，这要求模型不仅能够理解复杂的语言指令，还需在生成文本时严格遵守这些指令。然而，土耳其语的语法结构和词汇特性与英语等语言存在显著差异，这增加了模型在理解和执行指令时的难度。其次，在数据集的构建过程中，如何确保指令的多样性和复杂性，同时保持其可验证性，是一个重要的挑战。此外，数据集的翻译和注释过程需要高度的语言专业知识，以确保数据的准确性和一致性，这进一步增加了构建难度。

常用场景

经典使用场景

IFEval_tr数据集主要用于评估具有对话能力的模型在土耳其语环境下的指令遵循能力。通过提供一系列可验证的指令任务，如生成特定长度的文本或包含特定关键词，该数据集能够有效测试模型在复杂指令下的表现。这种评估方式特别适用于多语言模型在土耳其语环境中的性能测试，帮助研究者深入理解模型在特定语言背景下的认知能力。

衍生相关工作

IFEval_tr数据集的发布催生了一系列相关研究，特别是在多语言模型指令遵循能力的评估领域。基于该数据集的研究工作包括土耳其语模型的微调与优化、多语言模型在特定语言环境下的性能对比分析等。这些研究不仅丰富了土耳其语自然语言处理的研究成果，还为其他语言环境下的模型评估提供了参考和借鉴。

数据集最近研究