DebateSum

Name: DebateSum
Creator: 俄勒冈大学
Published: 2020-11-14 18:06:57
License: 暂无描述

arXiv2020-11-14 更新2024-06-21 收录

下载链接：

https://github.com/Hellisotherpeople/DebateSum

下载链接

链接失效反馈

官方服务：

资源简介：

DebateSum是由美国国家演讲与辩论协会在7年内收集的数据构建的大型论据挖掘和摘要数据集。该数据集包含187,386条独特的证据，每条证据都有相应的论据和提取摘要。数据集的创建过程涉及数千名辩论者和教练的手动生产和标注。DebateSum主要用于支持自动辩论系统中的信息检索、摘要和分类系统，旨在解决辩论研究中缺乏特定领域训练数据的问题。

DebateSum is a large-scale argument mining and summarization dataset constructed from data collected by the National Speech & Debate Association over a seven-year period. This dataset contains 187,386 unique pieces of evidence, with each piece paired with corresponding arguments and extractive summaries. The development of this dataset involved manual production and annotation completed by thousands of debaters and coaches. DebateSum is primarily designed to support information retrieval, summarization and classification systems in automated debate systems, aiming to address the scarcity of domain-specific training data in debate research.

提供机构：

俄勒冈大学

创建时间：

2020-11-14

搜集汇总

数据集介绍

构建方式

在竞争性辩论领域，论辩挖掘技术长期受限于领域特定训练数据的匮乏。为填补这一空白，DebateSum数据集应运而生，其构建依托于美国国家演讲与辩论协会（NSDA）七年间由参赛者汇编的丰富材料。研究团队将Open Evidence项目中存储的数千份辩论案例Word文档，通过Pandoc工具转换为HTML5格式，从而高效解析并提取出每条证据对应的论点文本、完整证据内容及其词级抽取式摘要，最终形成了187,386条独特的论点-证据-摘要三元组，即辩论社区所称的“卡片”。

使用方法

DebateSum为论辩挖掘与自动摘要研究提供了多维度应用场景。研究者可将其论点-证据-摘要三元组用于训练词级抽取式摘要模型，如论文中基于Transformer架构的BERT、GPT-2及Longformer模型，通过将摘要任务转化为Token分类问题（标注“下划线”与“非下划线”），以ROUGE指标评估性能。同时，该数据集支持查询聚焦的抽象式摘要研究，并配有公开的debate.cards搜索引擎，允许用户通过关键词在论点、证据或引文中快速检索，极大便利了辩论社区的证据编译与学术探索。

背景与挑战

背景概述

在论证挖掘与自动辩论系统的交叉领域中，大规模、高质量的数据集长期匮乏，尤其针对美国政策性辩论这一高度技术化且证据密集型的活动。DebateSum数据集由Allen Roush与Arvind Balaji于2020年创建，源自全美演讲与辩论协会（NSDA）七年间竞赛者积累的187,386份独特证据，每份证据均附带论点与抽取式摘要。该数据集的核心研究问题在于为政策性辩论提供领域特定的自然语言处理支持，涵盖信息检索、摘要生成与分类任务。DebateSum的发布填补了论证挖掘中缺乏大规模文档-论点-摘要三元组的空白，其衍生的debate2vec词向量与debate.cards搜索引擎已广泛服务于辩论社群，对法律、政治及哲学领域的文本分析亦具有深远影响。

当前挑战

DebateSum所面临的挑战首先体现于领域问题的复杂性：政策性辩论中的证据常包含对同一问题的正反两方论点，需实现查询导向的抽取式摘要，以支持辩论者仅提取利于己方的文本片段，而现有模型多聚焦于抽象式或句子级摘要，难以满足词级偏倚抽取需求。其次，数据集构建过程中遭遇多重困难：原始证据以Word文档形式分散存储于Open Evidence项目，需通过pandoc转换为HTML5以解析论点、证据与摘要的三元组结构；辩论者出于竞争保密性，证据共享依赖夏令营的众包机制，导致数据分布受限于年度议题且包含大量通用性论点；此外，语料中“速度阅读”现象使得证据长度与压缩比差异悬殊，平均摘要压缩比为0.46，而论点压缩比仅为0.06，为模型训练带来序列长度与语义聚焦的双重挑战。

常用场景

经典使用场景

在自动辩论与论证挖掘领域，DebateSum 作为迄今为止规模最大的论点-证据-摘要三元组数据集，为研究者提供了从结构化辩论语料中提取论点、生成摘要的基准平台。其经典使用场景聚焦于词级抽取式摘要任务，即利用论文中微调的Transformer模型（如Longformer），根据辩论者手写的论点标签，从证据文本中精准定位并抽取支持该论点的关键片段。这一过程模拟了真实辩论中辩手快速筛选证据、构建逻辑链的行为，为论证系统的自动化奠定了数据基础。

解决学术问题

DebateSum 的核心贡献在于填补了竞争性辩论中自然语言处理技术应用的数据空白。此前，论证挖掘研究多依赖网络爬取的简化论点数据集，缺乏与真实辩论场景匹配的大规模、高质量语料。该数据集解决了三个关键学术问题：一是为词级抽取式摘要提供监督训练数据，突破了传统句子级摘要的粒度限制；二是通过七年跨度的政策辩论议题，覆盖法律、政治、教育等多元领域，支持跨领域迁移学习研究；三是引入辩论特有的论点偏置摘要任务，推动查询聚焦摘要技术向实际辩论场景延伸，显著提升了模型在复杂论证结构中的泛化能力。

实际应用

在实际应用中，DebateSum 驱动的辩论卡片搜索引擎（debate.cards）已成为美国国家演讲与辩论协会成员的核心研究工具。辩手可通过关键词检索快速定位证据，并利用系统内置的抽取式摘要功能自动生成支持己方论点的精简片段，大幅缩短赛前准备时间。此外，该数据集训练的辩论词向量（debate2vec）在法律、政治分析等专业领域展现出优异性能，可辅助律师或政策分析师从海量文档中提取与特定立场相关的论据，实现从学术竞赛到职业场景的跨域赋能。

数据集最近研究