IdentifyMe

Name: IdentifyMe
Creator: CVIT, IIIT Hyderabad
Published: 2024-11-12 09:05:55
License: 暂无描述

arXiv2024-11-12 更新2024-11-14 收录

下载链接：

http://arxiv.org/abs/2411.07466v1

下载链接

链接失效反馈

官方服务：

资源简介：

IdentifyMe是由CVIT, IIIT Hyderabad和NVIDIA共同创建的一个用于提及解析的新基准数据集。该数据集包含1800个问题，主要来源于LitBank和FantasyCoref两个长文本共指消解基准。数据集通过多选题（MCQ）格式呈现，旨在评估大型语言模型（LLMs）的指代理解能力。创建过程中，数据集筛选了易于解析的提及，并应用了多种启发式方法来提高任务的难度。IdentifyMe主要应用于评估和提升LLMs在复杂文本环境中的指代解析能力，旨在解决模型在处理长文本和复杂提及结构时的性能瓶颈。

IdentifyMe is a novel benchmark dataset for mention resolution, co-created by CVIT, IIIT Hyderabad and NVIDIA. It contains 1,800 questions primarily sourced from two long-text coreference resolution benchmarks, LitBank and FantasyCoref. Presented in multiple-choice question (MCQ) format, the dataset is designed to evaluate the referential comprehension capabilities of large language models (LLMs). During its creation, easily resolvable mentions were filtered out, and various heuristic methods were applied to increase the task's difficulty. IdentifyMe is mainly used to evaluate and enhance the mention resolution ability of LLMs in complex textual contexts, aiming to address the performance bottlenecks of models when processing long texts and complex mention structures.

提供机构：

CVIT, IIIT Hyderabad

创建时间：

2024-11-12

搜集汇总

数据集介绍

构建方式

IdentifyMe数据集的构建基于两个长文本共指消解基准，即LitBank和FantasyCoref。这些数据集提供了丰富的上下文（平均1700字和2000字）和复杂的实体间依赖关系，从而增加了提及消解的难度。为了创建一个更具挑战性的基准，研究团队采用了两步筛选机制，首先排除那些由于句法相似性而易于解析的提及，然后对剩余提及进行难度排序。每个多选题实例包含一个被标记的提及和一组候选实体选项，包括一个‘None of the Above’选项，以确保模型在无法确定正确答案时能够选择退出。

特点

IdentifyMe数据集的一个显著特点是其多选题格式，这种格式通常用于评估大型语言模型（LLMs）。数据集中的提及类型主要为代词和名词短语，且经过精心筛选，排除了易于识别的提及，从而提升了任务的难度。此外，数据集包含了复杂的嵌套提及和实体重叠情况，这进一步考验了模型的共指消解能力。通过这种设计，IdentifyMe不仅评估了模型的提及检测能力，还深入分析了其在复杂语境下的实体识别和消解能力。

使用方法

使用IdentifyMe数据集时，研究者可以通过提供一个包含标记提及的文档，并要求模型从一组候选实体中识别出该提及所指的实体。模型可以选择‘None of the Above’选项，以表明无法确定正确答案。为了进一步提高模型的表现，研究者可以采用链式思维（CoT）方法，即要求模型在给出最终答案之前，先解释其推理过程。这种使用方法不仅有助于评估模型的共指消解能力，还能揭示其在处理复杂提及和实体重叠时的表现。

背景与挑战

背景概述

IdentifyMe数据集由CVIT, IIIT Hyderabad和NVIDIA的研究人员于2024年创建，旨在解决大型语言模型（LLMs）在指代消解任务中的评估不足问题。传统的输出格式和评估指标未能充分捕捉模型的指代理解能力，因此IdentifyMe采用多选题（MCQ）格式，通过长篇叙述和复杂的指代类型，创建了一个更具挑战性的基准。该数据集结合了LitBank和FantasyCoref两个长文本指代消解数据集的注释，旨在提供一个细粒度的模型性能分析工具，对LLMs的指代能力进行全面评估。

当前挑战

IdentifyMe数据集面临的挑战包括：1) 解决指代消解任务中的复杂性，特别是代词和名词指代的分辨；2) 构建过程中遇到的困难，如过滤易于解析的指代、处理嵌套指代以及确保数据集的高质量。此外，模型在处理代词指代时表现较差，尤其是当指代信息表面形式有限时。嵌套指代和None of the Above选项的正确识别也是模型面临的重大挑战。尽管GPT-4o模型在IdentifyMe上取得了81.9%的准确率，但仍存在改进空间。

常用场景

经典使用场景

IdentifyMe数据集的经典使用场景在于评估大型语言模型（LLMs）在长文本中的提及解析能力。通过采用多选题（MCQ）格式，该数据集要求模型在复杂的叙事结构中准确识别并解析提及的实体。这种格式不仅模拟了现实世界中的文本理解挑战，还通过排除易于识别的提及，增加了任务的难度，从而更全面地评估模型的指代理解能力。

衍生相关工作

基于IdentifyMe数据集，研究者们开展了一系列相关工作，包括改进指代消解算法的性能评估方法、开发新的模型架构以提升长文本中的提及解析能力，以及探索不同类型提及（如代词和名词短语）的解析策略。这些工作不仅推动了指代消解领域的发展，还为其他自然语言处理任务提供了新的思路和方法，展示了该数据集在推动学术研究和实际应用中的重要价值。

数据集最近研究