OpenDebateEvidence

Name: OpenDebateEvidence
Creator: 美国竞争性辩论社区
Published: 2024-06-21 02:22:59
License: 暂无描述

arXiv2024-06-21 更新2024-06-25 收录

下载链接：

https://huggingface.co/datasets/Yusuf5/OpenCaselist

下载链接

链接失效反馈

官方服务：

资源简介：

OpenDebateEvidence是由美国竞争性辩论社区创建的一个大规模数据集，包含超过350万份辩论证据文档，涵盖高中和大学辩论的所有NSDA辩论主题。该数据集通过OpenCaseList项目收集，每份文档都包含详细的元数据，如作者、日期、标题、来源和引用详情。数据集的创建过程涉及专业的数据预处理和去重步骤，确保数据质量和独特性。OpenDebateEvidence的应用领域广泛，包括法律文档分析、教育工具和AI模型开发，旨在提升计算论证和语言模型的性能。

OpenDebateEvidence is a large-scale dataset created by the competitive debate community in the United States. It contains over 3.5 million debate evidence documents covering all NSDA debate topics for high school and collegiate debates. Collected via the OpenCaseList project, each document is equipped with detailed metadata such as author, date, title, source and citation details. The dataset’s creation process involves professional data preprocessing and deduplication steps to ensure data quality and uniqueness. OpenDebateEvidence has broad application areas including legal document analysis, educational tools and AI model development, aiming to enhance the performance of computational argumentation and language models.

提供机构：

美国竞争性辩论社区

创建时间：

2024-06-21

搜集汇总

数据集介绍

构建方式

OpenDebateEvidence 数据集的构建始于 OpenCaseList 项目，这是一个在线平台，高中生和大学生辩论队在此披露和开源他们的证据。数据集包含超过 3.5 万份文档，涵盖 2012 年至 2023 年所有 NSDA 辩论主题。每份文档对应辩论中使用的一个证据，按辩论格式（政策、林肯-道格拉斯、公共论坛）分类，并包括作者、日期、标题、来源、引文细节和使用的辩论轮次等详尽元数据。数据集还包含标准化标签，用于描述文档提出的论证类型，以及证据在辩论文件中的结构和位置细节。为了保护隐私，识别信息已被匿名化。

使用方法

OpenDebateEvidence 数据集可用于各种自然语言处理任务和应用，包括文本生成、摘要、信息检索、问答等。数据集的“帽子”、“口袋”和“标签”等元数据结构允许模型进行多层次摘要，从简短的一句摘要到详细的概述。此外，数据集的丰富性使其适用于开发论证生成模型和反驳生成模型。通过在 OpenDebateEvidence 数据集上进行微调，可以显著提高语言模型在论证挖掘和摘要任务上的性能。

背景与挑战

背景概述

在自然语言处理领域，论点挖掘和摘要技术对于发展高级语言模型（LLMs）至关重要。OpenDebateEvidence数据集的创建旨在为这些研究提供强大的支持，它源自美国竞争辩论社区，包含了超过350万份文档，是目前最全面的辩论证据集合。该数据集由多位研究人员共同创建，包括Allen Roush、Yusuf Shabazz、Arvind Balaji等人，于2024年发布。OpenDebateEvidence不仅为LLMs的训练和评估提供了宝贵的资源，而且对法律文件分析、教育工具等领域产生了深远的影响。

当前挑战

OpenDebateEvidence数据集面临着一些挑战。首先，它主要收集自美国高中和大学的辩论证据，可能无法完全代表全球辩论社区的多样性和文化差异。其次，辩论证据中使用的特殊格式、缩写和专业术语可能需要额外的预处理或专门模型来准确分析。此外，尽管数据集提供了丰富的元数据，但可能存在不一致或不完整的信息。最后，数据集的规模和多样性也可能引入噪声和冗余，需要进一步的数据清理和去重工作。

常用场景

经典使用场景

OpenDebateEvidence数据集作为辩论证据的大规模集合，主要被用于训练和评估先进的语言模型，特别是在论证挖掘和摘要生成方面。它为模型提供了丰富的论据结构，使得模型能够更好地理解和生成论点。该数据集的经典使用场景包括但不限于辩论证据的自动摘要、论证挖掘、论点评估等。

解决学术问题

OpenDebateEvidence数据集解决了现有辩论证据数据集规模有限的问题。现有的辩论证据数据集，如DebateSum，主要关注预赛季的证据，而OpenDebateEvidence则包含了整个辩论赛季的证据，使得模型能够在更大规模的数据上进行训练和评估。此外，OpenDebateEvidence还提供了丰富的元数据，使得模型能够更好地理解和生成论点。

实际应用

OpenDebateEvidence数据集在实际应用中具有广泛的应用前景。例如，它可以被用于开发辩论辅助工具，帮助辩论者更好地组织和分析论据。此外，该数据集还可以被用于开发法律文书分析工具，帮助律师更好地理解和分析法律文书。此外，该数据集还可以被用于开发教育工具，帮助学生更好地理解和学习辩论技巧。

数据集最近研究