instruction_following-ifeval
收藏Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/aisingapore/instruction_following-ifeval
下载链接
链接失效反馈官方服务:
资源简介:
SEA-IFEval数据集用于评估模型在遵循提示中提供的约束条件的能力,例如以特定词/短语开始响应或以特定数量的部分回答问题。该数据集基于IFEval,并由母语者手动翻译为印尼语、爪哇语、巽他语、泰语、他加禄语和越南语。数据集按语言划分,每种语言有105个样本,统计信息包括每种语言的样本数量、GPT-4o、Gemma 2和Llama 3的token数量。数据集的下载大小为187918字节,数据集大小为312110字节,总token数量分别为33875、34959和40253。数据集的许可证为CC BY 4.0,适用于印尼语、爪哇语、他加禄语、巽他语和越南语。
The SEA-IFEval dataset is developed to evaluate models' capability to follow constraints specified in prompts, such as starting responses with a designated word/phrase or structuring answers to a question with a fixed number of sections. This dataset is based on IFEval, and was manually translated into Indonesian, Javanese, Sundanese, Thai, Tagalog, and Vietnamese by native speakers. The dataset is partitioned by language, with 105 samples per language. Its statistical information includes the number of samples per language, as well as the token counts of GPT-4o, Gemma 2, and Llama 3. The download size of the dataset is 187,918 bytes, and the total dataset size is 312,110 bytes. The total token counts for the three models are 33,875, 34,959, and 40,253 respectively. The dataset is licensed under CC BY 4.0, which applies to Indonesian, Javanese, Tagalog, Sundanese, and Vietnamese languages.
提供机构:
AI Singapore
创建时间:
2024-12-11
搜集汇总
数据集介绍

构建方式
SEA-IFEval数据集的构建基于IFEval,并由母语者手动翻译成印尼语、爪哇语、巽他语、泰语、他加禄语和越南语。该数据集旨在评估模型在遵循提示中提供的约束条件的能力,例如以特定词/短语开始响应或以特定数量的段落回答。每个语言分组均包含105个示例,确保了跨语言评估的一致性和全面性。
特点
SEA-IFEval数据集的显著特点在于其跨语言评估能力,涵盖了印尼语、爪哇语、巽他语、泰语、他加禄语和越南语。此外,数据集设计了多种约束条件,如特定词/短语的使用、段落数量等,以测试模型在复杂指令下的响应能力。每个语言分组的数据量均衡,确保了评估的公正性和广泛性。
使用方法
SEA-IFEval数据集适用于评估聊天或指令调优的大型语言模型(LLMs)。用户可以通过加载不同语言的分组数据,评估模型在特定语言环境下的指令遵循能力。数据集提供了详细的元数据和约束条件,用户可以根据这些信息设计评估任务,确保模型在不同语言和指令条件下的表现得到全面评估。
背景与挑战
背景概述
SEA-IFEval数据集由AI Singapore主导开发,旨在评估大型语言模型(LLMs)在遵循指令时的表现。该数据集基于IFEval(Instruction-Following Evaluation for Large Language Models),并由母语者手动翻译成印尼语、爪哇语、巽他语、泰语、他加禄语和越南语。SEA-IFEval的核心研究问题在于测试模型是否能够准确遵循提示中的约束条件,例如以特定词汇或短语开头,或生成特定数量的段落。该数据集的开发不仅丰富了多语言环境下的指令遵循评估,还为AI Singapore的SEA-HELM排行榜提供了重要支持,推动了多语言自然语言处理领域的研究进展。
当前挑战
SEA-IFEval数据集在构建过程中面临多重挑战。首先,多语言翻译的准确性和一致性是关键问题,确保不同语言版本的提示能够准确传达相同的约束条件。其次,数据集需要涵盖多种语言的复杂语法和表达方式,这对模型的跨语言泛化能力提出了高要求。此外,评估模型在不同语言中的表现时,如何确保评估标准的公平性和一致性也是一个重要挑战。最后,数据集的多样性和覆盖范围需要足够广泛,以确保评估结果能够全面反映模型的指令遵循能力。
常用场景
经典使用场景
SEA-IFEval数据集主要用于评估大型语言模型(LLMs)在遵循指令时的表现,特别是在生成文本时如何严格遵守提示中的约束条件。例如,模型是否能够根据提示要求,以特定词汇或短语开头,或者生成特定数量的段落和句子。这一数据集的经典使用场景包括对聊天模型或指令调优模型的性能进行基准测试,确保其在多语言环境下的指令遵循能力。
解决学术问题
SEA-IFEval数据集解决了在多语言环境下,大型语言模型如何准确遵循复杂指令的学术研究问题。通过提供多语言的提示和约束条件,该数据集帮助研究人员评估模型在不同语言中的表现,从而推动多语言自然语言处理(NLP)领域的发展。其意义在于为跨语言的指令遵循能力提供了标准化评估工具,促进了多语言模型的研究和应用。
衍生相关工作
基于SEA-IFEval数据集,研究者们开发了多种多语言指令遵循评估工具和模型。例如,一些研究工作利用该数据集对不同语言的指令遵循能力进行深入分析,提出了改进模型性能的策略。此外,SEA-IFEval还激发了在多语言环境下进行指令调优的新方法,推动了跨语言NLP技术的进步,并为多语言模型的实际应用提供了理论支持。
以上内容由遇见数据集搜集并总结生成



