Timely Events Benchmark (TiEBe)
收藏arXiv2025-01-14 更新2025-01-15 收录
下载链接:
http://arxiv.org/abs/2501.07482v1
下载链接
链接失效反馈官方服务:
资源简介:
TiEBe数据集由坎皮纳斯州立大学和Maritaca AI联合创建,旨在评估大语言模型对全球和地区重要事件的知识掌握情况。该数据集包含11,236个问答对,数据来源于维基百科的回顾页面,涵盖了2015年至2024年间全球及多个国家(如美国、巴西、法国等)的重要事件。数据集通过自动化工具从新闻文档中生成问答对,确保数据的多样性和时效性。TiEBe主要用于评估大语言模型在持续学习和地理知识差异方面的表现,旨在解决模型在处理全球事务时的不平衡问题。
The TiEBe dataset was co-created by the University of Campinas and Maritaca AI, aiming to evaluate the knowledge of large language models (LLMs) regarding globally and regionally significant events. This dataset contains 11,236 question-answer pairs, sourced from Wikipedia's retrospective pages, covering major events worldwide and across multiple countries such as the United States, Brazil, France, etc. between 2015 and 2024. The question-answer pairs are generated from news documents via automated tools, ensuring the diversity and timeliness of the data. TiEBe is primarily used to assess the performance of LLMs in continuous learning and geographical knowledge disparities, with the goal of addressing the imbalance issue in models' handling of global affairs.
提供机构:
坎皮纳斯州立大学 (UNICAMP), Maritaca AI
创建时间:
2025-01-14
搜集汇总
数据集介绍

构建方式
TiEBe数据集的构建基于维基百科的回顾性页面,这些页面记录了特定年份和国家的重大事件。研究团队从2015年至2024年的回顾性页面中提取了全球及五个国家(巴西、中国、葡萄牙、美国、法国)的事件信息,并通过自动化工具抓取相关新闻文档。随后,利用GPT-4模型生成与这些事件相关的问题-答案对,确保问题的多样性和覆盖范围。最终,数据集包含超过11,000个问题-答案对,涵盖了政治、科学、文化等多个领域。
特点
TiEBe数据集的特点在于其全球性和时效性。它不仅涵盖了全球范围内的重要事件,还特别关注了区域差异,能够评估大语言模型在不同地理背景下的知识表现。此外,数据集的构建方式使其能够持续更新,确保评估内容与当前世界事件同步。通过引入维基百科的回顾性数据,TiEBe为研究大语言模型的持续学习能力提供了重要工具,尤其是在模型如何平衡新知识与旧知识的保留方面。
使用方法
TiEBe数据集主要用于评估大语言模型对全球和区域性事件的记忆和理解能力。研究人员可以通过零样本提示的方式,将数据集中的问题输入模型,并使用LLM-as-judge方法评估模型的回答准确性。此外,TiEBe还可用于研究模型在不同时间范围内的知识表现,特别是模型在持续学习过程中对新事件的适应能力。通过分析模型在不同区域和时间段的表现,研究人员可以进一步探索大语言模型的知识偏差和改进方向。
背景与挑战
背景概述
Timely Events Benchmark (TiEBe) 是由Thales Sales Almeida等人于2025年1月提出的一个数据集,旨在评估大型语言模型(LLMs)对全球和区域性重大事件的实时知识掌握能力。该数据集由来自巴西坎皮纳斯州立大学(UNICAMP)和Maritaca AI的研究团队开发,包含超过11,000个问答对,涵盖了从2015年至2024年的全球及区域性事件。TiEBe的独特之处在于其利用维基百科的回顾性页面数据,持续更新以反映全球事务的演变,并特别关注LLMs在不同地理区域的表现差异。该数据集的推出填补了现有基准测试在评估LLMs持续学习和区域知识差异方面的空白,为研究LLMs如何动态更新和保持全球知识的平衡提供了重要工具。
当前挑战
TiEBe数据集面临的主要挑战包括两个方面:首先,LLMs在处理全球事件时表现出显著的地理差异,尤其是在对非英语地区事件的记忆和召回能力上存在明显不足。这种区域性的知识不平衡限制了LLMs在全球范围内的应用效果。其次,数据集的构建过程中也面临挑战,包括如何从多语言和多来源的新闻数据中提取高质量的事件信息,并生成准确的问答对。尽管维基百科提供了丰富的回顾性数据,但其覆盖范围和事件选择的偏差可能影响数据集的全面性和代表性。此外,如何确保LLMs在持续学习新知识的同时避免遗忘旧知识(即灾难性遗忘问题)也是TiEBe需要解决的关键挑战。
常用场景
经典使用场景
TiEBe数据集主要用于评估大型语言模型(LLMs)在全球和区域性事件中的知识更新能力。通过包含超过11,000个问题-答案对,TiEBe能够持续追踪模型对全球重大事件的记忆和理解,尤其是在不同地理区域的表现差异。这一数据集特别适用于研究模型在持续学习中的表现,帮助评估模型在获取新知识的同时是否能够保留旧知识。
衍生相关工作
TiEBe数据集衍生了一系列相关研究,特别是在持续学习和区域知识差异领域。例如,基于TiEBe的研究进一步探索了模型在多语言环境中的表现,提出了改进模型在非英语国家和地区知识记忆的策略。此外,TiEBe还为其他基准测试(如TemporalWiki和WorldBench)提供了补充,推动了LLMs在动态知识更新和全球知识表示方面的研究进展。
数据集最近研究
最新研究方向
随着大语言模型(LLMs)在多个领域的广泛应用,如何确保其知识库的及时更新成为研究热点。TiEBe数据集应运而生,旨在评估LLMs对全球及区域性重大事件的实时知识掌握能力。该数据集包含超过11,000个问答对,基于维基百科的回顾性数据构建,能够持续更新以反映全球动态。研究表明,LLMs在事实召回方面存在显著的地理差异,尤其是在对非英语地区事件的认知上表现较弱。TiEBe不仅为评估LLMs的持续学习能力提供了工具,还揭示了模型在全球化知识表示中的不平衡问题,推动了对多语言、多区域知识的进一步研究。
相关研究论文
- 1TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models坎皮纳斯州立大学 (UNICAMP), Maritaca AI · 2025年
以上内容由遇见数据集搜集并总结生成



