five

CROLIN-MQUAKE|跨语言知识编辑数据集|多跳推理数据集

收藏
arXiv2024-07-15 更新2024-08-06 收录
跨语言知识编辑
多跳推理
下载链接:
http://arxiv.org/abs/2407.10275v1
下载链接
链接失效反馈
资源简介:
CROLIN-MQUAKE数据集由麻省理工学院、北卡罗来纳大学教堂山分校和微软共同创建,是一个用于评估跨语言多跳知识编辑能力的基准数据集。该数据集包含3000条平行示例,覆盖8种不同语言,通过Google翻译和人工专家验证确保翻译准确性。数据集的创建旨在解决大型语言模型在跨语言环境下的知识更新问题,特别是在多语言和多跳推理场景中的应用。
提供机构:
麻省理工学院, 北卡罗来纳大学教堂山分校, 微软
创建时间:
2024-07-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
CROLIN-MQUAKE数据集的构建采用了现有的英文多跳模型编辑数据集MQuAKE-CF和MQuAKE-T,通过Google Translate将这些数据集中的每个事实编辑翻译成7种不同的语言,包括德语、西班牙语、中文、俄语、印地语、孟加拉语和斯瓦希里语。翻译后的数据集由人工专家进行了验证,并通过回译的方式计算了BLEU分数,以确保翻译的准确性。最终,CROLIN-MQUAKE数据集包含了8种语言,每个语言有3000个平行例子(所有语言中相同的例子),并且提供了两个数据集:CROLIN-MQUAKE-CF和CROLIN-MQUAKE-T,分别包含计数事实编辑和真实世界的时间事实编辑。
使用方法
CROLIN-MQUAKE数据集可以用于评估和比较不同知识编辑方法在跨语言环境下的性能。用户可以训练和测试自己的知识编辑模型,并使用CROLIN-MQUAKE数据集来评估模型在不同语言和不同编辑类型下的性能。此外,数据集中的平行例子也使得用户可以直接比较不同语言之间的知识编辑性能。
背景与挑战
背景概述
CROLIN-MQUAKE是一个跨语言多跳知识编辑的基准数据集,由Aditi Khandelwal、Harman Singh、Hengrui Gu、Tianlong Chen和Kaixiong Zhou等人创建。该数据集的创建是为了衡量和分析在各种跨语言设置下不同知识编辑技术的性能。CROLIN-MQUAKE是第一个并行跨语言基准数据集,用于衡量知识编辑能力。该数据集基于MQuAKE-CF和MQuAKE-T数据集,其中包含英语的多跳模型编辑,并将这些数据集中的一个事实编辑翻译成七种不同的语言,包括德语、西班牙语、中文、俄语、印地语、孟加拉语和斯瓦希里语。CROLIN-MQUAKE的创建填补了现有跨语言知识编辑基准的空白,为研究人员提供了评估和比较不同跨语言知识编辑技术的平台。
当前挑战
CROLIN-MQUAKE数据集面临的挑战主要包括:1)跨语言知识编辑的挑战:在多语言环境中,知识编辑技术需要能够准确地将知识从一个语言转移到另一个语言,同时处理由此产生的推理过程中的多跳影响。2)构建过程中所遇到的挑战:数据集的构建涉及到将英语的事实编辑翻译成多种语言,这需要确保翻译的准确性和一致性。此外,还需要开发能够处理跨语言和多跳推理的知识编辑方法,并评估这些方法在不同语言和文化背景下的性能。
常用场景
经典使用场景
CROLIN-MQUAKE数据集主要用于衡量和分析不同知识编辑技术在跨语言环境下的性能。该数据集为跨语言多跳知识编辑提供了一个平行跨语言的基准,涵盖了多种语言的事实编辑,并评估了不同语言模型在处理这些编辑时的准确性。一个经典的使用场景是使用CROLIN-MQUAKE数据集来测试和比较各种知识编辑方法在多跳问答任务中的表现,特别是在涉及不同语言的事实编辑时,这些方法如何有效地转移知识并在多跳推理过程中保持一致性。
解决学术问题
CROLIN-MQUAKE数据集解决了跨语言知识编辑中的关键问题,即如何有效地更新和同步大型语言模型中的知识,使其能够适应不同语言中的新信息。该数据集揭示了现有知识编辑方法在跨语言设置中的性能差距,尤其是在准确召回非英语编辑方面。通过创建CROLIN-MQUAKE,研究人员能够分析不同知识编辑方法的局限性,并设计出更有效的跨语言多跳知识编辑方法,如CLEVER-CKE,从而提高了知识编辑的准确性和鲁棒性。
实际应用
CROLIN-MQUAKE数据集的实际应用场景包括但不限于多语言问答系统、信息检索和机器翻译。在多语言问答系统中,CROLIN-MQUAKE可以帮助模型更准确地理解和回答涉及不同语言的事实编辑的问题。在信息检索中,该数据集可以用于训练模型,使其能够有效地从多语言知识库中检索相关信息。在机器翻译中,CROLIN-MQUAKE可以帮助模型更好地理解和处理不同语言之间的语义差异,从而提高翻译的准确性和流畅性。
数据集最近研究
最新研究方向
在跨语言多跳知识编辑领域,最新的研究方向主要集中在如何提高大型语言模型对多语言知识的编辑能力。本研究提出了跨语言多跳知识编辑范式,旨在测量和分析不同知识编辑技术在跨语言环境下的性能。研究结果表明,现有技术在跨语言和以英语为中心的设置之间存在显著的性能差距。为了解决这一差距,研究者们提出了CLEVER-CKE系统,该系统基于检索、验证和生成知识编辑框架,通过跨语言检索器来检索编辑后的事实,并支持LLM遵守知识编辑。CLEVER-CKE在三个LLM、八种语言和两个数据集上的实验结果表明,其性能比现有方法提高了高达30%。
相关研究论文
  • 1
    Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach麻省理工学院, 北卡罗来纳大学教堂山分校, 微软 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录