five

DetectBench

收藏
arXiv2024-03-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2307.05113v3
下载链接
链接失效反馈
官方服务:
资源简介:
DetectBench是一个专为评估大型语言模型在复杂信息中识别关键信息和进行多步推理能力而设计的阅读理解数据集。该数据集包含3928个问题,每个问题伴随一个平均长度为190个令牌的段落。DetectBench的特点包括:关键信息不直接出现在上下文中,需要结合上下文中的多个线索推导出更关键的线索,且上下文中包含大量误导性和无关信息。数据集从开源平台收集大量侦探谜题,并重写为包含上下文、问题、选项、答案及答案解释的格式。DetectBench旨在通过模拟侦探谜题中的复杂故事、情境和角色互动,挑战模型在检测和推理线索方面的能力,以解决实际问题。

DetectBench is a reading comprehension dataset specifically designed to evaluate the capabilities of large language models (LLMs) in identifying critical information from complex contexts and conducting multi-step reasoning. This dataset comprises 3,928 questions, each paired with a passage averaging 190 tokens in length. The distinguishing features of DetectBench are as follows: critical information does not directly appear in the provided context; multiple clues within the context need to be integrated to deduce more critical clues; and the context contains a substantial amount of misleading and irrelevant information. The dataset is compiled from a large number of detective puzzles sourced from open-source platforms, then rewritten into a standardized format that includes context, questions, options, correct answers, and answer explanations. DetectBench aims to challenge models' abilities in clue detection and reasoning by simulating complex narratives, scenarios, and character interactions in detective puzzles, so as to address practical real-world problems.
提供机构:
复旦大学
创建时间:
2023-07-11
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索与常识推理交叉领域,DetectBench的构建遵循严谨的多阶段流程。该数据集源自开源平台的侦探谜题,通过GPT-4-turbo模型辅助进行问题筛选与重构,确保每个条目聚焦于线索检测与多步推理。具体而言,原始问题被转化为包含上下文、问题、选项、答案及线索图的标准格式,其中上下文平均长度为190个词元。构建过程包含问题筛选、问题重写与人工验证三个阶段,人工验证由五名标注者协同完成,以剔除涉及敏感内容、依赖非文本信息或逻辑不清晰的问题,并精细调整选项与推理路径的合理性,最终形成包含3,928个问题的标准化基准。
特点
DetectBench的核心特征体现在其模拟真实侦探推理的复杂性上。数据集的上下文蕴含大量分散且隐含的线索,这些线索并不直接关联问题,且常与误导性信息交织,要求模型具备从冗余信息中甄别关键要素的能力。每个问题需通过多跳推理整合多个线索,形成新的推断,从而导向答案。此外,数据集提供了结构化的线索图,明确标注了从上下文提取的关键信息及其多步推理路径,为评估模型的信息检测与深度推理能力提供了透明且可解释的框架。这些特性使DetectBench区别于传统阅读理解基准,更贴近现实场景中信息过载下的决策挑战。
使用方法
DetectBench主要用于评估大型语言模型在信息检测与多跳推理方面的联合能力。使用时,模型接收包含复杂上下文的输入,需首先识别隐含的关键线索,随后通过多步常识推理推导出答案。基准支持多项选择题形式,以准确率作为主要评估指标,同时通过RougeL分数衡量模型从上下文中提取关键信息片段的性能。为提升模型表现,研究提出了侦探思维框架,引导模型分阶段进行线索检测、关联、推理与总结,该框架可通过提示工程或微调策略实施。数据集的标准化格式便于集成至现有评估流程,为模型在复杂信息环境下的推理能力提供系统化测试。
背景与挑战
背景概述
在大型语言模型迅猛发展的时代背景下,评估模型如何从海量信息中识别关键线索并进行深度推理,已成为自然语言处理领域的前沿课题。DetectBench由复旦大学与小红书公司于2024年联合创建,旨在构建一个专门评估模型侦探式思维能力的阅读理解基准。该数据集包含3,928个问题,每个问题均配有一段平均长度为190个标记的复杂叙述段落,其核心研究问题聚焦于模型在信息过载情境下,对隐含、分散且存在误导性信息的线索进行联合检测与多跳推理的能力。DetectBench的推出,为衡量模型在真实场景中整合信息检索与常识推理的综合性表现提供了新的评估标准,对推动语言模型向更类人的深度认知理解迈进具有重要影响力。
当前挑战
DetectBench致力于解决的领域挑战,在于如何精准评估模型在复杂、非结构化文本中执行联合信息检测与深度推理的能力。传统阅读理解或检索增强生成任务常将关键信息集中呈现或与问题直接关联,而DetectBench则要求模型从大量无关或误导信息中,发现隐含且分散的线索,并通过多步常识推理将其关联以解答问题,这对模型的深层语义理解和逻辑整合能力提出了极高要求。在构建过程中,挑战主要源于数据的高质量标注与标准化。为确保问题的合理性与答案的唯一性,需从开源侦探谜题中筛选并重写,排除依赖符号逻辑、专业知识或信息过于明显的问题,并手动构建精确匹配原文的线索图以显式表示推理路径,这一过程对标注的一致性与逻辑严谨性构成了显著挑战。
常用场景
经典使用场景
在自然语言处理领域,DetectBench作为一项专为评估大语言模型侦探技能而设计的阅读理解数据集,其经典使用场景聚焦于模拟复杂信息环境下的关键线索检测与多跳推理任务。该数据集通过构建平均长度为190个词元的叙事段落,并嵌入大量误导性与无关信息,要求模型在隐晦且分散的线索中识别核心信息,进而进行深度逻辑推演以解答问题。这种设计旨在检验模型在面对信息过载时,能否像经验丰富的侦探一样,有效整合线索检测与推理能力,从而为模型在复杂语境下的认知性能提供标准化评估平台。
解决学术问题
DetectBench主要解决了自然语言处理中两大核心学术问题:一是模型在隐含且分散信息中关键线索的检测能力不足,二是多跳常识推理的深度与准确性欠缺。传统基准如HotPotQA或FEVER往往将关键信息集中呈现且与问题直接关联,而DetectBench通过引入隐式线索和复杂推理链,迫使模型超越表面匹配,进行更深层次的语义关联与逻辑整合。该数据集的建立不仅揭示了现有模型在信息检索与推理联合任务上的局限性,还通过提出的侦探思维框架,为提升模型在复杂信息处理中的鲁棒性与准确性提供了方法论支持,推动了面向任务导向的复杂信息检索研究的发展。
衍生相关工作
DetectBench的推出激发了多项相关经典工作的探索,尤其是在提示工程与微调策略方面。基于该数据集设计的侦探思维提示方法,通过分阶段引导模型进行线索检测、关联分析与加权推理,显著提升了如GPT-4等模型在联合任务上的性能。同时,研究者们利用DetectBench的标注数据开发了侦探思维微调框架,将推理过程转化为训练样本,增强了模型在信息提取与逻辑推演中的泛化能力。这些工作不仅扩展了多跳推理与隐式信息检索的研究边界,还为后续如Plan-and-Solve CoT等复杂推理方法的优化提供了实证基础,推动了语言模型在认知密集型任务中的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作