Information Updation dataset
收藏arXiv2025-04-03 更新2025-04-07 收录
下载链接:
https://zeroshot-llm-infosync.github.io/zero-shot-llminfosync/
下载链接
链接失效反馈官方服务:
资源简介:
Information Updation数据集是由印度古瓦哈蒂理工学院等机构的研究人员创建的,旨在模拟现实世界中更新过时的Wikipedia表格的过程。该数据集包含950个经过人工注释的实例,跨越9个类别和14种语言。它通过从不同时间点提取同一实体的两个版本Wikipedia表格来构建,其中一个版本作为源表格,另一个版本作为参考表格,同时还有一个由人工同步创建的金标准表格。该数据集用于评估信息更新任务,即在源表格中更新行信息,使其与金标准表格中的信息相匹配。
The Information Updation dataset was created by researchers from institutions including the Indian Institute of Technology Guwahati, aiming to simulate the real-world process of updating outdated Wikipedia tables. This dataset contains 950 manually annotated instances, spanning 9 categories and 14 languages. It is constructed by extracting two versions of Wikipedia tables for the same entity from different time points, where one version serves as the source table and the other as the reference table, alongside a gold-standard table manually created through synchronization. This dataset is used to evaluate the information update task, which involves updating the row-level information in the source table to match the content in the gold-standard table.
提供机构:
印度古瓦哈蒂理工学院(IIT Guwahati)、犹他大学(University of Utah)、宾夕法尼亚大学(University of Pennsylvania)、亚利桑那州立大学(Arizona State University)
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
在信息更新任务中,数据集构建通过提取同一维基百科实体表格的两个历史版本实现。具体而言,对于类别C和语言Li的表格T,从2018年提取旧版本作为源表(TS),从2023年提取新版本作为参考表(TR),并由人工标注生成黄金标准表(TG)。该过程模拟了跨语言环境下实体中心表格的信息同步场景,涵盖专辑、运动员、城市等9个类别及14种语言,最终形成约950个标注实例。
特点
该数据集的核心特征体现在三方面:首先,采用时间维度对比构建样本,真实反映维基百科信息更新的动态过程;其次,通过多语言平行表格设计(如西班牙语与印地语对照),系统捕捉低资源语言的更新滞后现象;最后,人工验证机制确保黄金表同时满足信息完整性(融合源表与参考表内容)和一致性(消除冲突数据),为评估模型性能提供可靠基准。表格属性间复杂的语义关联与语言差异构成了具有挑战性的跨语言推理场景。
使用方法
使用该数据集时,需遵循标准化的信息同步流程:将源表(TS)与参考表(TR)输入模型,生成输出表(TO)后与黄金表(TG)进行对齐评估。评估采用两级指标:信息对齐阶段通过Tri-Aligned、Bi-Aligned等分组量化更新准确性;信息更新阶段借助LLM进行语义等价性判断,计算精确率、召回率等指标。研究建议采用任务分解策略,依次执行翻译、知识图谱转换、合并对齐等子任务,可显著提升GPT-4等模型在信息添加(20.58%)和更新(1.79%)任务中的表现。
背景与挑战
背景概述
Information Updation数据集由IIT Guwahati、University of Utah、University of Pennsylvania和Arizona State University的研究团队于2023年创建,旨在解决多语言维基百科表格信息同步的核心问题。该数据集模拟了更新过时维基百科表格的真实过程,涵盖14种语言的9个类别,如专辑、运动员、城市等。其创新性在于利用大语言模型(LLMs)进行零样本提示,突破了传统基于规则方法在复杂场景下的泛化局限性,显著提升了跨语言信息同步的准确性和可扩展性,对低资源语言的知识更新具有重要实践意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决多语言表格间信息不一致、低资源语言数据陈旧等难题,传统方法难以处理复杂的语义对齐;在构建过程中,需克服多语言翻译质量差异、知识图谱融合冲突等技术障碍,例如英语作为中间语言转换时可能引入的文化语义损失。此外,评估指标的设计需平衡自动化效率与人工验证可靠性,特别是处理部分匹配和矛盾信息时的粒度控制问题。
常用场景
经典使用场景
在跨语言信息同步领域,Information Updation数据集被广泛应用于模拟维基百科多语言表格的更新过程。该数据集通过对比不同时间段的表格版本,为研究者提供了一个标准化的测试平台,用以评估大型语言模型在信息更新任务中的表现。特别是在处理低资源语言维基百科条目时,该数据集能够有效反映现实世界中信息过时或不完整的挑战。
实际应用
在实际应用中,该数据集为维基百科等多语言知识库的自动化维护提供了关键技术支撑。通过该数据集训练的模型能够自动检测并修正低资源语言版本中的过时信息,显著提升了知识库的时效性和准确性。这种技术特别适用于政府机构、跨国企业和教育组织需要维护多语言知识库的场景,大幅降低了人工更新的成本。
衍生相关工作
基于该数据集的研究催生了一系列重要的衍生工作,包括改进的跨语言信息对齐算法、更高效的表格合并技术,以及专门针对低资源语言的模型优化方法。其中最具代表性的是结合知识图谱的层次化任务分解方法,该方法通过将表格转换为知识图谱显著提升了信息更新的准确性,为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



