five

IdentifyMe|提及解析数据集|大型语言模型数据集

收藏
arXiv2024-11-12 更新2024-11-14 收录
提及解析
大型语言模型
下载链接:
http://arxiv.org/abs/2411.07466v1
下载链接
链接失效反馈
资源简介:
IdentifyMe是由CVIT, IIIT Hyderabad和NVIDIA共同创建的一个用于提及解析的新基准数据集。该数据集包含1800个问题,主要来源于LitBank和FantasyCoref两个长文本共指消解基准。数据集通过多选题(MCQ)格式呈现,旨在评估大型语言模型(LLMs)的指代理解能力。创建过程中,数据集筛选了易于解析的提及,并应用了多种启发式方法来提高任务的难度。IdentifyMe主要应用于评估和提升LLMs在复杂文本环境中的指代解析能力,旨在解决模型在处理长文本和复杂提及结构时的性能瓶颈。
提供机构:
CVIT, IIIT Hyderabad
创建时间:
2024-11-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
IdentifyMe数据集的构建基于两个长文本共指消解基准,即LitBank和FantasyCoref。这些数据集提供了丰富的上下文(平均1700字和2000字)和复杂的实体间依赖关系,从而增加了提及消解的难度。为了创建一个更具挑战性的基准,研究团队采用了两步筛选机制,首先排除那些由于句法相似性而易于解析的提及,然后对剩余提及进行难度排序。每个多选题实例包含一个被标记的提及和一组候选实体选项,包括一个‘None of the Above’选项,以确保模型在无法确定正确答案时能够选择退出。
特点
IdentifyMe数据集的一个显著特点是其多选题格式,这种格式通常用于评估大型语言模型(LLMs)。数据集中的提及类型主要为代词和名词短语,且经过精心筛选,排除了易于识别的提及,从而提升了任务的难度。此外,数据集包含了复杂的嵌套提及和实体重叠情况,这进一步考验了模型的共指消解能力。通过这种设计,IdentifyMe不仅评估了模型的提及检测能力,还深入分析了其在复杂语境下的实体识别和消解能力。
使用方法
使用IdentifyMe数据集时,研究者可以通过提供一个包含标记提及的文档,并要求模型从一组候选实体中识别出该提及所指的实体。模型可以选择‘None of the Above’选项,以表明无法确定正确答案。为了进一步提高模型的表现,研究者可以采用链式思维(CoT)方法,即要求模型在给出最终答案之前,先解释其推理过程。这种使用方法不仅有助于评估模型的共指消解能力,还能揭示其在处理复杂提及和实体重叠时的表现。
背景与挑战
背景概述
IdentifyMe数据集由CVIT, IIIT Hyderabad和NVIDIA的研究人员于2024年创建,旨在解决大型语言模型(LLMs)在指代消解任务中的评估不足问题。传统的输出格式和评估指标未能充分捕捉模型的指代理解能力,因此IdentifyMe采用多选题(MCQ)格式,通过长篇叙述和复杂的指代类型,创建了一个更具挑战性的基准。该数据集结合了LitBank和FantasyCoref两个长文本指代消解数据集的注释,旨在提供一个细粒度的模型性能分析工具,对LLMs的指代能力进行全面评估。
当前挑战
IdentifyMe数据集面临的挑战包括:1) 解决指代消解任务中的复杂性,特别是代词和名词指代的分辨;2) 构建过程中遇到的困难,如过滤易于解析的指代、处理嵌套指代以及确保数据集的高质量。此外,模型在处理代词指代时表现较差,尤其是当指代信息表面形式有限时。嵌套指代和None of the Above选项的正确识别也是模型面临的重大挑战。尽管GPT-4o模型在IdentifyMe上取得了81.9%的准确率,但仍存在改进空间。
常用场景
经典使用场景
IdentifyMe数据集的经典使用场景在于评估大型语言模型(LLMs)在长文本中的提及解析能力。通过采用多选题(MCQ)格式,该数据集要求模型在复杂的叙事结构中准确识别并解析提及的实体。这种格式不仅模拟了现实世界中的文本理解挑战,还通过排除易于识别的提及,增加了任务的难度,从而更全面地评估模型的指代理解能力。
衍生相关工作
基于IdentifyMe数据集,研究者们开展了一系列相关工作,包括改进指代消解算法的性能评估方法、开发新的模型架构以提升长文本中的提及解析能力,以及探索不同类型提及(如代词和名词短语)的解析策略。这些工作不仅推动了指代消解领域的发展,还为其他自然语言处理任务提供了新的思路和方法,展示了该数据集在推动学术研究和实际应用中的重要价值。
数据集最近研究
最新研究方向
在自然语言处理领域,IdentifyMe数据集的最新研究方向聚焦于提升大型语言模型(LLMs)在长文本提及解析任务中的表现。该数据集通过引入多选题(MCQ)格式,挑战模型在复杂叙事中的提及解析能力。研究者们关注于如何改进模型对代词提及和嵌套提及的解析,以及如何有效处理‘无正确选项’(None of the Above)的识别。此外,研究还探讨了不同提及类型和数据源对模型性能的影响,旨在通过精细化分析提升模型的指代能力。
相关研究论文
  • 1
    IdentifyMe: A Challenging Long-Context Mention Resolution BenchmarkCVIT, IIIT Hyderabad · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集