five

TEMPRAGEVAL|时间敏感问答数据集|检索系统数据集

收藏
arXiv2024-12-20 更新2024-12-24 收录
时间敏感问答
检索系统
下载链接:
http://arxiv.org/abs/2412.15540v1
下载链接
链接失效反馈
资源简介:
TEMPRAGEVAL是一个用于时间敏感问答系统的基准数据集,由南洋理工大学等机构创建。该数据集通过重新利用TIMEQA和SITUATEDQA数据集,并引入时间扰动和人工标注的黄金证据,旨在评估检索系统在时间推理任务中的表现。数据集包含1000个测试样本,涵盖常见和罕见实体,适用于评估检索增强生成系统的时间推理能力。TEMPRAGEVAL的创建过程包括对原始问题进行时间扰动和证据标注,旨在解决时间敏感问答中的检索和生成问题。
提供机构:
南洋理工大学、阿里巴巴-NTU联合研究院、上海纽约大学、浙江大学、纽约大学数据科学中心
创建时间:
2024-12-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
TEMPRAGEVAL数据集通过重新利用现有的TIMEQA和SITUATEDQA数据集构建,引入了时间扰动和黄金证据标签。具体而言,研究团队对原始问题进行了时间约束的修改,例如将‘截至2019年’改为‘2020年至2021年之间’,并确保答案在扰动后仍然一致。此外,为了更好地评估检索系统的性能,数据集还包含了手动标注的黄金证据,这些证据来自维基百科页面,用于验证检索结果的准确性。
特点
TEMPRAGEVAL数据集的主要特点在于其专注于时间敏感的问题回答任务,引入了时间扰动和黄金证据标注,从而能够系统性地评估检索系统在时间推理方面的能力。数据集中的问题涵盖了不同难度级别,包括常见和罕见实体,且每个问题都附带了至少两个黄金证据段落,确保了检索评估的准确性。此外,数据集的设计使得现有的检索方法在处理时间推理密集型问题时表现不佳,从而凸显了该数据集的挑战性。
使用方法
TEMPRAGEVAL数据集主要用于评估和改进时间敏感问题回答系统中的检索模块。研究者可以使用该数据集来测试现有检索方法在处理时间推理密集型问题时的性能,并通过对比不同检索系统的结果,识别其在时间推理方面的不足。此外,数据集还可以用于训练和验证新的检索框架,如MRAG,该框架通过模块化的方式将语义检索与时间推理分离,从而提升检索性能。通过在TEMPRAGEVAL上的实验,研究者可以进一步优化检索系统,提升最终答案的准确性。
背景与挑战
背景概述
TEMPRAGEVAL数据集由南洋理工大学、纽约大学上海分校、浙江大学等机构的研究人员共同开发,旨在解决时间敏感问题回答(Time-Sensitive Question Answering, TSQA)领域的挑战。该数据集通过对现有数据集进行时间扰动和黄金证据标注,系统性地评估了现有检索增强生成(Retrieval-Augmented Generation, RAG)系统在时间推理密集型问题上的表现。TEMPRAGEVAL的创建时间为2024年,其核心研究问题是如何在不更新大型语言模型(LLMs)参数的情况下,有效处理时间敏感问题。该数据集的引入为TSQA领域提供了新的诊断基准,推动了时间推理密集型检索技术的发展。
当前挑战
TEMPRAGEVAL数据集面临的挑战主要集中在两个方面:一是时间敏感问题回答领域的挑战,即如何在不更新LLMs参数的情况下,准确回答涉及时间推理的问题;二是数据集构建过程中遇到的挑战,包括如何通过时间扰动生成更具挑战性的问题,以及如何为每个问题标注黄金证据以进行更准确的检索评估。现有检索方法在处理时间推理密集型问题时表现不佳,尤其是在面对时间扰动问题时,检索性能显著下降。此外,构建过程中需要手动标注大量证据,增加了数据集的构建难度。
常用场景
经典使用场景
TEMPRAGEVAL数据集的经典使用场景主要集中在时间敏感型问答任务中,特别是在需要进行复杂时间推理的场景下。该数据集通过引入时间扰动和黄金证据标签,评估现有检索方法在处理时间敏感问题时的表现。例如,在回答“谁是2019年的英国首相?”这类问题时,系统需要结合时间信息进行深度推理,以确保检索到的文档与问题中的时间约束相匹配。
实际应用
TEMPRAGEVAL数据集在实际应用中具有广泛的应用场景,特别是在需要处理时间敏感信息的领域,如新闻检索、历史事件查询和实时问答系统。例如,在新闻检索中,用户可能会询问“2021年5月的英国首相是谁?”这类问题,系统需要结合时间信息进行检索和推理,以提供准确的答案。此外,在历史事件查询中,用户可能会询问特定时间点的事件,系统需要通过时间推理来检索相关文档。
衍生相关工作
TEMPRAGEVAL数据集的提出催生了一系列相关的经典工作,特别是在时间敏感型问答和检索增强生成领域。例如,MRAG框架的提出,通过模块化设计将问题处理、检索和摘要生成以及语义-时间混合排序相结合,显著提升了时间敏感型问答的性能。此外,TEMPRAGEVAL还启发了其他研究者开发新的时间推理基准,如BRIGHT和TRAM,进一步推动了时间敏感型问答和检索技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

cricket_data

该数据集包含了多种板球比赛的数据,包括每场比赛的详细信息,如比赛日期、地点、参赛队伍、比赛结果等。数据以文件形式存储,每个文件对应不同的比赛信息,如投球数据、比赛日期、比赛信息、比赛详情、元数据、比赛结果、最有价值球员、超级替补、参赛队伍、抛硬币结果和裁判员信息等。

github 收录

NAEP - National Assessment of Educational Progress

NAEP(国家教育进展评估)数据集包含了美国全国范围内对学生学术成就的定期评估结果。该数据集涵盖了多个学科领域,如阅读、数学、科学等,并提供了不同年级和不同州的数据。数据集还包括了学生的背景信息和社会经济因素,以帮助分析教育成就的影响因素。

nces.ed.gov 收录