【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
Multi-IF
收藏arXiv2024-10-21 更新2024-10-23 收录
下载链接:
https://huggingface.co/datasets/facebook/Multi-IF
下载链接
链接失效反馈官方服务:
资源简介:
Multi-IF是由Meta GenAI创建的一个多轮和多语言指令跟随基准数据集,旨在评估大型语言模型(LLMs)在复杂的多轮和多语言交互中的表现。该数据集包含4,501个多语言对话,每个对话有三轮,涵盖英语、法语、俄语、印地语、意大利语、葡萄牙语、西班牙语和中文。数据集的创建过程结合了LLM和人工注释者的力量,确保了指令的多样性和准确性。Multi-IF主要用于研究LLMs在多语言和多轮对话中的指令跟随能力,旨在解决现有基准在多语言和多轮评估中的不足。
Multi-IF is a multi-turn and multilingual instruction-following benchmark dataset developed by Meta GenAI, intended to evaluate the performance of Large Language Models (LLMs) in complex multi-turn and multilingual interactions. This dataset includes 4,501 multilingual dialogues, each consisting of three turns, covering eight languages: English, French, Russian, Hindi, Italian, Portuguese, Spanish and Mandarin Chinese. The construction of the dataset combines the strengths of LLMs and human annotators to guarantee the diversity and accuracy of the included instructions. Multi-IF is primarily utilized to study the instruction-following capabilities of LLMs in multilingual and multi-turn dialogues, aiming to address the shortcomings of existing benchmarks in multilingual and multi-turn evaluation tasks.
提供机构:
Meta GenAI
创建时间:
2024-10-21
原始信息汇总
Multi-IF 数据集概述
数据集简介
Multi-IF 是一个新的基准数据集,旨在评估大型语言模型(LLMs)在多轮和多语言指令遵循方面的能力。该数据集通过结合LLM和人工注释者的混合框架,扩展了IFEval,增加了多轮序列并将英语提示翻译成另外7种语言,最终形成了一个包含4501个多语言对话的数据集,每个对话包含三轮。
数据集特点
- 多轮对话:每个对话包含三轮。
- 多语言支持:支持英语、法语、西班牙语、葡萄牙语、印地语、中文、俄语和意大利语。
- 挑战性任务:对14个最先进的LLMs的评估显示,Multi-IF比现有基准更具挑战性,模型在每增加一轮时执行指令的正确率显著下降。
数据字段
turns:用于保存评估中的历史对话。responses:用于保存评估中的最新响应。turn_1_prompt:第一轮的用户提示,作为LLM生成的输入。turn_1_instruction_id_list:第一轮用户提示的指令,评估脚本所需。turn_1_kwargs:第一轮指令的参数,评估脚本所需。turn_2_prompt:第二轮的用户提示,作为LLM生成的输入。turn_2_instruction_id_list:第二轮用户提示的指令,评估脚本所需。turn_2_kwargs:第二轮指令的参数,评估脚本所需。turn_3_prompt:第三轮的用户提示,作为LLM生成的输入。turn_3_instruction_id_list:第三轮用户提示的指令,评估脚本所需。turn_3_kwargs:第三轮指令的参数,评估脚本所需。key:每个对话的键。turn_index:用于保存评估中的当前轮次索引。language:每个对话的语言。
数据分割
- 测试集:包含4,501个示例。
搜集汇总
数据集介绍

构建方式
Multi-IF数据集的构建基于IFEval数据集,通过引入多轮对话和多语言翻译扩展其功能。首先,将单轮用户提示通过随机采样和LLM生成的提示修订扩展为多轮用户提示。随后,通过LLM自动过滤和人工审核去除各轮之间的指令冲突。最后,将英语数据集翻译成法语、俄语、印地语、意大利语、葡萄牙语、西班牙语和中国语,形成包含4,501个多语言对话的数据集。
使用方法
使用Multi-IF数据集时,研究人员和开发者可以通过提供的提示和评估代码库来测试和比较不同的大型语言模型在多轮和多语言指令遵循任务中的表现。数据集的评估方法包括指令级严格准确性、对话级严格准确性、指令级宽松准确性和对话级宽松准确性,通过这些指标可以全面评估模型的性能。
背景与挑战
背景概述
随着大型语言模型(LLMs)在各种任务中展现出卓越的能力,指令遵循成为确保模型输出与用户期望一致的关键任务。然而,由于人类语言的复杂性和主观性,评估LLMs的指令遵循能力仍然具有挑战性。现有的基准主要集中在单轮、单语言指令上,无法充分反映现实应用中多轮和多语言交互的复杂性。为此,Meta GenAI的研究团队于2024年10月22日推出了Multi-IF数据集,旨在评估LLMs在多轮和多语言指令遵循中的表现。该数据集通过结合LLM和人工注释者的混合框架,扩展了IFEval数据集,包含了4,501个多语言对话,每个对话包含三轮。
当前挑战
Multi-IF数据集面临的挑战主要包括两个方面:一是解决领域问题中的挑战,即如何有效评估和提升LLMs在多轮和多语言环境下的指令遵循能力;二是构建过程中遇到的挑战,如多轮指令之间的冲突检测与解决、多语言翻译的准确性保证以及敏感内容的过滤。此外,数据集的评估结果显示,所有测试模型在执行多轮指令时准确率均有下降,非拉丁字母语言(如印地语、俄语和中文)的错误率普遍较高,表明模型在多语言指令遵循能力上存在显著局限。
常用场景
经典使用场景
Multi-IF数据集的经典使用场景在于评估大型语言模型(LLMs)在多轮和多语言指令跟随任务中的表现。通过提供包含多轮对话和多语言提示的数据集,研究人员和开发者可以测试和比较不同LLMs在复杂交互环境中的性能,特别是在处理多轮对话和跨语言指令时的准确性和一致性。
解决学术问题
Multi-IF数据集解决了当前学术研究中评估LLMs指令跟随能力时存在的两个主要问题:单轮指令评估的局限性和单一语言评估的不足。通过引入多轮和多语言的评估框架,Multi-IF数据集为研究人员提供了一个更全面、更贴近实际应用场景的评估工具,有助于推动LLMs在复杂交互环境中的研究和应用。
实际应用
在实际应用中,Multi-IF数据集可以用于开发和优化面向多语言用户的对话系统和服务。例如,Meta AI、Gemini、ChatGPT等大型语言模型可以通过该数据集进行训练和评估,以提高其在多语言环境中的指令跟随能力和用户体验。此外,该数据集还可用于跨语言对话系统的开发和测试,确保系统在不同语言和文化背景下的适应性和有效性。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的广泛应用中,指令遵循能力是确保模型输出与用户期望一致的关键。然而,现有的基准主要集中在单轮、单语言的指令上,未能充分反映现实世界应用中多轮和多语言交互的复杂性。为了填补这一空白,最新的研究引入了Multi-IF基准,旨在评估LLMs在多轮和多语言指令遵循中的表现。该基准通过结合LLM和人工注释者的混合框架,扩展了IFEval,增加了多轮序列并将英语提示翻译成其他七种语言,从而创建了一个包含4,501个多语言对话的数据集。研究结果表明,Multi-IF比现有基准更具挑战性,所有测试模型在每增加一轮时都显示出更高的指令执行失败率。此外,非拉丁字母语言(如印地语、俄语和中国)的错误率普遍较高,表明模型在多语言指令遵循能力方面存在潜在限制。
相关研究论文
- 1Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions FollowingMeta GenAI · 2024年
以上内容由遇见数据集搜集并总结生成



