DebateBench

Name: DebateBench
Creator: 比尔拉理工学院
Published: 2025-02-10 17:23:03
License: 暂无描述

arXiv2025-02-10 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.06279v1

下载链接

链接失效反馈

官方服务：

资源简介：

DebateBench是一个包含英国议会辩论的转录和元数据的综合数据集，来自一些世界上最负盛名的辩论比赛。该数据集包含来自官方评审数据的详细演讲评分和议院排名，旨在评估现代大型语言模型在长上下文推理、论证、辩论以及与人类专家保持一致方面的能力。

DebateBench is a comprehensive dataset containing transcripts and metadata of UK parliamentary debates, sourced from some of the world's most prestigious debate competitions. The dataset includes detailed speech scores and chamber rankings derived from official review data, aiming to evaluate the capabilities of modern large language models (LLMs) in long-context reasoning, argumentation, debate, and alignment with human experts.

提供机构：

比尔拉理工学院

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

DebateBench 数据集的构建旨在填补当前自然语言推理领域中长文本上下文数据集的空白。该数据集由来自世界顶级辩论比赛的详细辩论记录和元数据组成，这些辩论涉及广泛的话题。数据集包含 32 场辩论，每场辩论时长超过 1 小时，输入平均包含 32,000 个标记。每场辩论包含 256 篇演讲，演讲均由官方裁决数据进行了详细的演讲级别评分和团队排名标注。数据集的构建过程包括从 YouTube 上收集辩论视频，使用 GPT-Whisper 生成转录文本，并通过 GPT-4o 进行语法和拼写错误校正，最后进行人工验证以确保高质量。

特点

DebateBench 数据集具有以下几个显著特点：1) 数据集包含来自顶级辩论比赛的辩论记录，确保了数据的质量和多样性；2) 每场辩论都包含详细的演讲级别评分和团队排名，为模型评估提供了丰富的标注信息；3) 数据集设计为长文本上下文推理任务，要求模型进行上下文学习和逻辑推理，以理解辩论的规则和评估标准；4) 数据集包含三个主要评估任务，即演讲评分、演讲排名和团队排序，全面评估模型在辩论推理和结构化论证方面的能力。

使用方法

使用 DebateBench 数据集时，模型首先需要理解辩论的规则和评估标准，然后分析所有演讲者提出的论点，并进行推理以给出最终结果。数据集提供了官方的 WUDC 裁决手册作为系统提示，模型需要根据手册的指导进行评估。模型在三个任务上的表现通过计算预测结果与真实结果之间的差异来评估，包括预测排名、演讲评分和演讲排名。模型在 DebateBench 上的表现可以反映出其在处理长文本上下文推理任务和结构化论证方面的能力。

背景与挑战

背景概述

DebateBench数据集是一个由来自世界顶级辩论比赛的广泛辩论记录和元数据组成的创新数据集。该数据集由英国议会辩论的记录组成，这些辩论涵盖了各种主题，并带有详细的演讲级评分和官方裁决数据中的议院排名。DebateBench由256场演讲组成，涵盖32场辩论，每场辩论超过1小时，每个输入平均包含32,000个标记。该数据集旨在捕捉长期上下文的大规模推理任务，为评估现代大型语言模型（LLMs）在参与辩论、审议以及与人类专家保持一致的能力提供了一个基准。DebateBench的创建是为了应对现有长上下文推理基准的不足，例如缺乏“仅辩论”的辩论和评估指标的全面性。DebateBench的引入填补了这一空白，并为LLMs提供了一个具有挑战性的基准，以评估它们在复杂辩论场景中的推理和论证能力。

当前挑战

DebateBench数据集面临的挑战包括：1) 长上下文推理的挑战：LLMs在处理需要深入理解和分析大量信息的任务时，往往难以达到人类专家的水平。2) 构建过程中的挑战：从YouTube收集辩论视频并转换为高质量的转录文本是一个复杂的过程，需要使用先进的NLP技术进行语法和拼写错误的纠正。3) 评估指标的挑战：现有的评估指标可能无法全面反映LLMs在长上下文推理任务中的表现，需要开发新的评估方法来更准确地衡量LLMs的能力。

常用场景

经典使用场景

DebateBench数据集主要被用于评估大型语言模型（LLMs）在处理长上下文推理任务时的表现。该数据集包含了来自世界顶级辩论比赛的辩论记录和元数据，这些辩论内容涵盖了各种话题，并标注了详细的演讲评分和团队排名。DebateBench的设计旨在捕捉长上下文、大规模推理任务，为LLMs提供了一个基准，以评估它们在参与辩论、进行辩论和与人类专家保持一致方面的能力。

衍生相关工作

DebateBench数据集的衍生相关工作包括Argument Mining、Summarization和Question Answering等。Argument Mining可以用于从DebateBench数据集中提取论证结构和论点，以帮助LLMs更好地理解辩论内容。Summarization可以用于生成辩论的摘要，以帮助人们更好地理解辩论的主要论点和结论。Question Answering可以用于回答与辩论相关的问题，以帮助人们更好地理解辩论内容和相关话题。

数据集最近研究