Debate Speech Evaluation Dataset

Name: Debate Speech Evaluation Dataset
Creator: IBM Research, The Hebrew University of Jerusalem, The Allen Institute for AI (AI2)
Published: 2025-06-05 22:06:51
License: 暂无描述

arXiv2025-06-05 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/ibm-research/debate_speeches

下载链接

链接失效反馈

官方服务：

资源简介：

辩论演讲评估数据集是IBM研究团队为了评估LLM判断能力而创建的。该数据集包含超过600个经过精心标注的辩论演讲，涵盖了各种话题。每个演讲都由15位经验丰富的人类评估者进行评分，以评估其是否为支持话题的良好开场白。数据集包括152个由人类专家辩论者撰写的演讲，以及479个由六种不同合成流程生成的演讲，这些合成流程包括基于摘要提取、论点挖掘、GPT-2生成、人类撰写论点拼接和自动辩论系统。该数据集旨在提供一个高质量的基准，用于评估LLM在辩论演讲评估任务上的判断能力。

The Debating Speech Evaluation Dataset was developed by the IBM Research team to assess the judgment capabilities of Large Language Models (LLMs). This dataset comprises over 600 meticulously annotated debating speeches spanning a diverse array of topics. Each speech was rated by 15 seasoned human evaluators to determine whether it qualified as a strong opening statement supporting its corresponding topic. The dataset includes 152 speeches authored by human expert debaters, as well as 479 speeches generated through six distinct synthetic generation pipelines: summary extraction-based methods, argument mining, GPT-2 generation, concatenation of human-written arguments, and automatic debating systems. This dataset is designed to serve as a high-quality benchmark for evaluating the judgment performance of LLMs on the debating speech evaluation task.

提供机构：

IBM Research, The Hebrew University of Jerusalem, The Allen Institute for AI (AI2)

创建时间：

2025-06-05

原始信息汇总

Debate Speeches Dataset 概述

数据集基本信息

语言: 英文 (en)
许可证: CDLA Permissive 2.0
下载大小: 1,822,536 字节
数据集大小: 3,674,388 字节
训练集样本数: 948

数据集结构

特征列

topic_id: 主题ID (字符串)
topic: 辩论主题 (字符串)
source: 演讲来源 (字符串)
text: 演讲文本 (字符串)
goodopeningspeech: 作为开场演讲的质量评分 (字符串)
mostargumentssupport: 论点支持主题的程度评分 (字符串)
interestingspeaker: 演讲内容有趣和信息丰富的程度评分 (字符串)
#labelers: 标注者数量 (int64)
motion_set: 动议集 (字符串)

数据集内容

包含关于各种主题的带注释的辩论演讲。
数据包括人类专家辩手的演讲和使用自动化流程创建的演讲。
演讲质量由人类标注者评分。

评分标准

每个演讲由15名众包标注工作者在以下三个方面进行评分（1-5分）：

goodopeningspeech: "该演讲是支持主题的良好开场演讲。"
mostargumentssupport: "演讲中的大多数论点都支持主题。"
interestingspeaker: 内容是否有趣和信息丰富。

演讲来源说明

Human expert: 人类专家辩手的演讲转录。
Project Debater: IBM自动项目辩论系统的演讲。
Mixed stance control: 控制演讲，混合支持和反对主题的演讲。
Speech-GPT2: 基于GPT2-large模型生成的演讲。
Summit: 基于Summit多文档摘要系统的演讲。
Arg-Human1: 由众包工作者创作的高质量论点。
Arg-Human2: 从新闻语料库中提取和整理的论点。
Arg-GPT2: 由GPT2-large模型生成的论点。
Arg-Search: 使用ArgumenText项目获得的论点。

相关文献

搜集汇总

数据集介绍

构建方式

Debate Speech Evaluation Dataset的构建基于Slonim等人（2021）收集的600余篇经过精细标注的辩论演讲，涵盖76个争议性话题。每篇演讲由15位经验丰富的人工标注者根据Likert量表（1-5分）从论点强度、逻辑连贯性、结构组织及风格得体性等维度进行评分。数据来源包括152篇人类专家演讲和479篇合成演讲，后者通过六种自动流程生成（如基于GPT-2的Speech-GPT2和IBM的Project Debater系统），确保了文本风格与质量的多样性。标注过程中还通过控制演讲筛选不可靠标注者，保障了数据的高信度。

特点

该数据集的核心特点在于其多维度的评估框架与高质量标注。演讲内容平均长度达614词，要求评估者综合理解长文本的论证深度与整体说服力，超越了传统问答或摘要任务的认知需求。数据覆盖人类与合成演讲的混合来源，既包含真实辩论场景的复杂性，又通过自动化生成方法提供了可控的质量梯度。此外，每篇演讲的多人标注设计支持对评估者一致性的量化分析，为研究LLM与人类判断差异提供了独特视角。

使用方法

使用该数据集时，研究者可通过标准化提示（如图1所示）要求LLM评委对演讲进行1-5分评分，任务与人类标注者一致。实验设计可采用链式思维（CoT）提示增强模型推理，并通过Kappa系数和Kendall’s Tau-C等指标量化LLM与人类判断的一致性。数据集特别适用于：1）分析LLM评委在长文本论证评估中的能力边界；2）探究模型规模（如7B参数阈值效应）与判断行为的关系；3）生成对抗性演讲以测试模型抗偏性。需注意解析输出时处理-1分异常值（如格式错误）。

背景与挑战

背景概述

Debate Speech Evaluation Dataset由IBM Research和耶路撒冷希伯来大学的研究团队于2025年提出，旨在为大型语言模型（LLM）评估提供新颖且具有挑战性的基准。该数据集包含600多篇经过精心标注的辩论演讲，涉及多个争议性话题，每篇演讲由15名经验丰富的人工标注者进行评分。该数据集的创建基于Slonim等人（2021）的研究，最初用于评估IBM开发的Project Debater系统。其核心研究问题在于评估LLM在理解和评价长篇辩论演讲中的多维能力，包括论证强度、演讲连贯性、风格和语调的适当性等。该数据集为LLM-as-a-Judge（LLMaJ）范式提供了重要的评估工具，推动了自然语言处理领域中对复杂认知任务的系统性研究。

当前挑战

Debate Speech Evaluation Dataset面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决LLM在评估辩论演讲时的多维理解能力，包括对论证强度、演讲结构和风格的全面评估。这一任务的复杂性要求模型具备深层次的语义理解和推理能力，而现有LLM在这些方面的表现仍存在显著差距。在构建过程中，研究人员面临数据标注的高成本和复杂性挑战。每篇演讲需要15名标注者独立评分，并通过控制演讲筛选不可靠标注者，以确保数据质量。此外，数据集还需平衡人工撰写和自动生成的演讲，以覆盖多样化的写作风格和质量水平，这对数据集的代表性和泛化性提出了较高要求。

常用场景

经典使用场景

Debate Speech Evaluation Dataset 在自然语言处理和计算论证领域中被广泛用于评估大型语言模型（LLM）作为评委的能力。该数据集包含超过600篇经过精心标注的辩论演讲，涵盖了多个争议性话题。研究者利用这一数据集，系统分析了不同规模和类型的LLM在评估辩论演讲时的表现，并与人类评委的评分进行对比。这一场景不仅测试了模型对长文本的理解能力，还考察了其在论证强度、逻辑连贯性、演讲结构和风格适宜性等多维度的评估能力。

解决学术问题

该数据集解决了多个学术研究问题，尤其是在LLM-as-a-Judge（LLMaJ）范式下的评估挑战。通过提供高质量的标注数据，研究者能够量化LLM在辩论演讲评估任务中的表现，揭示模型与人类评委之间的差异。例如，研究发现，尽管大型模型在某些方面能够接近人类评委的评分，但其整体评分行为与人类存在显著差异。此外，该数据集还推动了关于LLM在生成说服性文本方面的研究，展示了现代LLM在辩论任务中可能超越人类的能力。

衍生相关工作

该数据集衍生了一系列相关研究，包括LLM评委的基准测试（如JudgeBench和MM-Eval）、辩论胜负预测模型（如Debatrix）以及论证质量分析工具（如Key Point Analysis）。这些工作不仅扩展了数据集的应用范围，还进一步推动了计算论证和自然语言处理领域的发展。例如，研究者利用该数据集分析了LLM评委的位置偏差、冗长偏差和自偏差，为改进模型评估方法提供了重要依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集