VIRAASAT
收藏arXiv2026-02-21 更新2024-06-21 收录
下载链接:
https://doi.org/XXXXXXX.XXXXXXX
下载链接
链接失效反馈官方服务:
资源简介:
VIRAASAT是由南卡罗来纳大学AI研究所和印度理工学院帕特纳分校联合开发的印度文化多跳问答数据集,旨在评估模型在复杂文化推理任务中的表现。数据集包含3,218条问题,基于700多个专家策划的文化实体构建的知识图谱生成,覆盖印度28个邦和8个中央直辖区的13个文化属性(如历史、节日、饮食等)。通过半自动化流程生成多跳问题,并经过专家验证确保质量和逻辑正确性。该数据集为开发具有文化意识的推理模型提供了重要基准,尤其适用于需要深度文化理解和多步推理的NLP任务。
VIRAASAT is a multihop question answering dataset for Indian culture jointly developed by the AI Institute at the University of South Carolina and the Indian Institute of Technology Patna. It is designed to evaluate model performance on complex cultural reasoning tasks. The dataset contains 3,218 questions generated from a knowledge graph built on over 700 expert-curated cultural entities, covering 13 cultural attributes (e.g., "history", "festivals", "cuisine", etc.) across 28 states and 8 union territories of India. Multihop questions are generated via a semi-automated pipeline and verified by experts to ensure quality and logical correctness. This dataset serves as an important benchmark for developing culturally aware reasoning models, particularly for NLP tasks that require deep cultural understanding and multi-step reasoning.
提供机构:
南卡罗来纳大学·AI研究所; 印度理工学院帕特纳分校
创建时间:
2026-02-21
搜集汇总
数据集介绍

构建方式
HiBench数据集的构建旨在填补现有结构推理基准在层次结构推理方面的空白。该数据集涵盖了从初始结构生成到最终熟练度评估的整个过程,系统地评估了大型语言模型(LLMs)在层次结构推理方面的能力。HiBench数据集包含了六个代表性的场景,包括二叉树、多叉树、JSON、公式、代码和论文,每个场景都有多个任务,共计39,519个查询。为了全面评估LLMs的能力,HiBench开发了五个能力维度,包括关系意识、结构理解、结构操作、分析推理和文本推理,从不同角度描绘了层次结构理解的各个方面。
特点
HiBench数据集的特点在于其系统性和全面性。首先,它涵盖了从基本到实践的各个层次,确保了LLMs在各种复杂性和实际应用场景下的层次结构推理能力得到充分评估。其次,数据集的构建考虑了不同的结构复杂性和表示方式,包括显式和隐式的层次结构,以测试LLMs在不同结构表示下的推理能力。此外,HiBench还通过设计针对LLMs弱点的指令数据集,提高了LLMs在层次结构推理任务上的性能。
使用方法
HiBench数据集的使用方法包括两个主要组件:层次数据集构造器和评估器。层次数据集构造器负责系统地生成具有不同复杂性的基准数据,而评估器则从五个细化的能力维度量化模型性能。使用HiBench时,研究人员可以将其作为LLMs层次结构推理能力的基准,通过评估不同LLMs在各个任务和场景上的表现,来识别LLMs的强项和弱点。此外,HiBench还提供了指令数据集,用于微调LLMs,以提高其在层次结构推理任务上的性能。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型(LLMs)的发展取得了显著进展,它们在处理复杂任务方面展现出惊人的能力。然而,现有的结构推理基准主要关注水平结构和坐标结构,如图形,而忽略了其中的层次关系。层次结构推理对于人类的认知至关重要,特别是在记忆组织和问题解决方面。此外,它在各种现实世界的任务中也发挥着关键作用,如信息提取和决策制定。为了填补这一空白,研究人员提出了HiBench,这是第一个从初始结构生成到最终熟练度评估的框架,旨在系统地评估LLMs的层次推理能力。HiBench涵盖了六个代表性的场景,包括基础和实践方面,并包含30个具有不同层次复杂性的任务,总计39,519个查询。该框架还开发了五个能力维度,以描述层次结构理解的不同方面。通过对20个LLMs从10个模型家族的广泛评估,揭示了它们的能力和局限性。
当前挑战
尽管HiBench为评估LLMs的层次推理能力提供了一个全面的框架,但仍面临一些挑战。首先,现有的LLMs在处理更复杂的结构和隐式层次表示时仍然存在困难,尤其是在结构修改和文本推理方面。其次,随着层次结构的复杂性的增加,无论是深度还是广度,LLMs面临的挑战也在增加。此外,结构表示中明确包含层次信息可以增强LLMs的推理能力。最后,当上下文语义与现实世界的层次关系一致时,LLMs的表现更为有效。为了进一步提高LLMs在层次推理任务中的有效性,研究人员创建了一个小型而精心设计的指令数据集,该数据集针对LLMs在层次推理方面的弱点,并通过对小型LLMs进行指令微调,在所有任务上提高了LLMs在HiBench上的表现,平均提高了88.84%(Llama-3.18B)和31.38%(Qwen2.5-7B)。然而,在某些任务上的表现仍然远低于平均水平,如何全面提高LLMs的层次推理能力仍然是一个开放的问题。
常用场景
经典使用场景
HiBench 数据集主要被用于评估大型语言模型(LLMs)在层次结构推理方面的能力。它通过一系列精心设计的任务来衡量 LLMs 在处理和推理多级信息时的表现,涵盖了从基础到实践的各个方面。HiBench 包含六个代表性场景,包括二叉树、多叉树、JSON、公式、代码和论文,这些场景覆盖了不同层次复杂性的任务,共计 39,519 个查询。通过评估 LLMs 在五个能力维度(关系意识、结构理解、结构操作、分析推理和文本推理)上的表现,HiBench 帮助研究者们全面了解 LLMs 的层次结构推理能力。
解决学术问题
HiBench 数据集解决了现有结构推理基准主要关注水平结构和坐标结构(如图形),而忽略了其中的层次关系的问题。层次结构推理是人类认知的基本能力,对于记忆组织、问题解决和决策制定至关重要。HiBench 通过提供一个系统性的框架,评估 LLMs 在层次结构推理方面的能力,填补了现有评估框架中的空白。这对于进一步研究 LLMs 的能力和人类认知之间的对齐具有重要意义。
衍生相关工作
HiBench 数据集的提出,引发了对 LLMs 在层次结构推理方面能力的研究。在此基础上,研究人员提出了许多改进 LLMs 层次结构推理能力的方法,例如指令微调。通过在 HiBench 数据集上进行指令微调,小规模 LLMs 在层次结构推理任务上的表现得到了显著提升。这些研究成果为 LLMs 的发展和应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



