CROLIN-MQUAKE
收藏arXiv2024-07-15 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.10275v1
下载链接
链接失效反馈官方服务:
资源简介:
CROLIN-MQUAKE数据集由麻省理工学院、北卡罗来纳大学教堂山分校和微软共同创建,是一个用于评估跨语言多跳知识编辑能力的基准数据集。该数据集包含3000条平行示例,覆盖8种不同语言,通过Google翻译和人工专家验证确保翻译准确性。数据集的创建旨在解决大型语言模型在跨语言环境下的知识更新问题,特别是在多语言和多跳推理场景中的应用。
The CROLIN-MQUAKE dataset, co-created by the Massachusetts Institute of Technology, University of North Carolina at Chapel Hill, and Microsoft, is a benchmark dataset for evaluating cross-lingual multi-hop knowledge editing capabilities. It contains 3,000 parallel examples covering 8 distinct languages, with translation accuracy ensured by Google Translate and manual expert validation. This dataset was developed to address the knowledge update challenges of large language models (LLMs) in cross-lingual scenarios, particularly in applications involving multilingual and multi-hop reasoning.
提供机构:
麻省理工学院, 北卡罗来纳大学教堂山分校, 微软
创建时间:
2024-07-15
搜集汇总
数据集介绍

构建方式
CROLIN-MQUAKE数据集的构建采用了现有的英文多跳模型编辑数据集MQuAKE-CF和MQuAKE-T,通过Google Translate将这些数据集中的每个事实编辑翻译成7种不同的语言,包括德语、西班牙语、中文、俄语、印地语、孟加拉语和斯瓦希里语。翻译后的数据集由人工专家进行了验证,并通过回译的方式计算了BLEU分数,以确保翻译的准确性。最终,CROLIN-MQUAKE数据集包含了8种语言,每个语言有3000个平行例子(所有语言中相同的例子),并且提供了两个数据集:CROLIN-MQUAKE-CF和CROLIN-MQUAKE-T,分别包含计数事实编辑和真实世界的时间事实编辑。
使用方法
CROLIN-MQUAKE数据集可以用于评估和比较不同知识编辑方法在跨语言环境下的性能。用户可以训练和测试自己的知识编辑模型,并使用CROLIN-MQUAKE数据集来评估模型在不同语言和不同编辑类型下的性能。此外,数据集中的平行例子也使得用户可以直接比较不同语言之间的知识编辑性能。
背景与挑战
背景概述
CROLIN-MQUAKE是一个跨语言多跳知识编辑的基准数据集,由Aditi Khandelwal、Harman Singh、Hengrui Gu、Tianlong Chen和Kaixiong Zhou等人创建。该数据集的创建是为了衡量和分析在各种跨语言设置下不同知识编辑技术的性能。CROLIN-MQUAKE是第一个并行跨语言基准数据集,用于衡量知识编辑能力。该数据集基于MQuAKE-CF和MQuAKE-T数据集,其中包含英语的多跳模型编辑,并将这些数据集中的一个事实编辑翻译成七种不同的语言,包括德语、西班牙语、中文、俄语、印地语、孟加拉语和斯瓦希里语。CROLIN-MQUAKE的创建填补了现有跨语言知识编辑基准的空白,为研究人员提供了评估和比较不同跨语言知识编辑技术的平台。
当前挑战
CROLIN-MQUAKE数据集面临的挑战主要包括:1)跨语言知识编辑的挑战:在多语言环境中,知识编辑技术需要能够准确地将知识从一个语言转移到另一个语言,同时处理由此产生的推理过程中的多跳影响。2)构建过程中所遇到的挑战:数据集的构建涉及到将英语的事实编辑翻译成多种语言,这需要确保翻译的准确性和一致性。此外,还需要开发能够处理跨语言和多跳推理的知识编辑方法,并评估这些方法在不同语言和文化背景下的性能。
常用场景
经典使用场景
CROLIN-MQUAKE数据集主要用于衡量和分析不同知识编辑技术在跨语言环境下的性能。该数据集为跨语言多跳知识编辑提供了一个平行跨语言的基准,涵盖了多种语言的事实编辑,并评估了不同语言模型在处理这些编辑时的准确性。一个经典的使用场景是使用CROLIN-MQUAKE数据集来测试和比较各种知识编辑方法在多跳问答任务中的表现,特别是在涉及不同语言的事实编辑时,这些方法如何有效地转移知识并在多跳推理过程中保持一致性。
解决学术问题
CROLIN-MQUAKE数据集解决了跨语言知识编辑中的关键问题,即如何有效地更新和同步大型语言模型中的知识,使其能够适应不同语言中的新信息。该数据集揭示了现有知识编辑方法在跨语言设置中的性能差距,尤其是在准确召回非英语编辑方面。通过创建CROLIN-MQUAKE,研究人员能够分析不同知识编辑方法的局限性,并设计出更有效的跨语言多跳知识编辑方法,如CLEVER-CKE,从而提高了知识编辑的准确性和鲁棒性。
实际应用
CROLIN-MQUAKE数据集的实际应用场景包括但不限于多语言问答系统、信息检索和机器翻译。在多语言问答系统中,CROLIN-MQUAKE可以帮助模型更准确地理解和回答涉及不同语言的事实编辑的问题。在信息检索中,该数据集可以用于训练模型,使其能够有效地从多语言知识库中检索相关信息。在机器翻译中,CROLIN-MQUAKE可以帮助模型更好地理解和处理不同语言之间的语义差异,从而提高翻译的准确性和流畅性。
数据集最近研究
最新研究方向
在跨语言多跳知识编辑领域,最新的研究方向主要集中在如何提高大型语言模型对多语言知识的编辑能力。本研究提出了跨语言多跳知识编辑范式,旨在测量和分析不同知识编辑技术在跨语言环境下的性能。研究结果表明,现有技术在跨语言和以英语为中心的设置之间存在显著的性能差距。为了解决这一差距,研究者们提出了CLEVER-CKE系统,该系统基于检索、验证和生成知识编辑框架,通过跨语言检索器来检索编辑后的事实,并支持LLM遵守知识编辑。CLEVER-CKE在三个LLM、八种语言和两个数据集上的实验结果表明,其性能比现有方法提高了高达30%。
相关研究论文
- 1Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach麻省理工学院, 北卡罗来纳大学教堂山分校, 微软 · 2024年
以上内容由遇见数据集搜集并总结生成



