five

OpenDebateEvidence|辩论证据数据集|数据分析数据集

收藏
arXiv2024-06-21 更新2024-06-25 收录
辩论证据
数据分析
下载链接:
https://huggingface.co/datasets/Yusuf5/OpenCaselist
下载链接
链接失效反馈
资源简介:
OpenDebateEvidence是由美国竞争性辩论社区创建的一个大规模数据集,包含超过350万份辩论证据文档,涵盖高中和大学辩论的所有NSDA辩论主题。该数据集通过OpenCaseList项目收集,每份文档都包含详细的元数据,如作者、日期、标题、来源和引用详情。数据集的创建过程涉及专业的数据预处理和去重步骤,确保数据质量和独特性。OpenDebateEvidence的应用领域广泛,包括法律文档分析、教育工具和AI模型开发,旨在提升计算论证和语言模型的性能。
提供机构:
美国竞争性辩论社区
创建时间:
2024-06-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
OpenDebateEvidence 数据集的构建始于 OpenCaseList 项目,这是一个在线平台,高中生和大学生辩论队在此披露和开源他们的证据。数据集包含超过 3.5 万份文档,涵盖 2012 年至 2023 年所有 NSDA 辩论主题。每份文档对应辩论中使用的一个证据,按辩论格式(政策、林肯-道格拉斯、公共论坛)分类,并包括作者、日期、标题、来源、引文细节和使用的辩论轮次等详尽元数据。数据集还包含标准化标签,用于描述文档提出的论证类型,以及证据在辩论文件中的结构和位置细节。为了保护隐私,识别信息已被匿名化。
使用方法
OpenDebateEvidence 数据集可用于各种自然语言处理任务和应用,包括文本生成、摘要、信息检索、问答等。数据集的“帽子”、“口袋”和“标签”等元数据结构允许模型进行多层次摘要,从简短的一句摘要到详细的概述。此外,数据集的丰富性使其适用于开发论证生成模型和反驳生成模型。通过在 OpenDebateEvidence 数据集上进行微调,可以显著提高语言模型在论证挖掘和摘要任务上的性能。
背景与挑战
背景概述
在自然语言处理领域,论点挖掘和摘要技术对于发展高级语言模型(LLMs)至关重要。OpenDebateEvidence数据集的创建旨在为这些研究提供强大的支持,它源自美国竞争辩论社区,包含了超过350万份文档,是目前最全面的辩论证据集合。该数据集由多位研究人员共同创建,包括Allen Roush、Yusuf Shabazz、Arvind Balaji等人,于2024年发布。OpenDebateEvidence不仅为LLMs的训练和评估提供了宝贵的资源,而且对法律文件分析、教育工具等领域产生了深远的影响。
当前挑战
OpenDebateEvidence数据集面临着一些挑战。首先,它主要收集自美国高中和大学的辩论证据,可能无法完全代表全球辩论社区的多样性和文化差异。其次,辩论证据中使用的特殊格式、缩写和专业术语可能需要额外的预处理或专门模型来准确分析。此外,尽管数据集提供了丰富的元数据,但可能存在不一致或不完整的信息。最后,数据集的规模和多样性也可能引入噪声和冗余,需要进一步的数据清理和去重工作。
常用场景
经典使用场景
OpenDebateEvidence数据集作为辩论证据的大规模集合,主要被用于训练和评估先进的语言模型,特别是在论证挖掘和摘要生成方面。它为模型提供了丰富的论据结构,使得模型能够更好地理解和生成论点。该数据集的经典使用场景包括但不限于辩论证据的自动摘要、论证挖掘、论点评估等。
解决学术问题
OpenDebateEvidence数据集解决了现有辩论证据数据集规模有限的问题。现有的辩论证据数据集,如DebateSum,主要关注预赛季的证据,而OpenDebateEvidence则包含了整个辩论赛季的证据,使得模型能够在更大规模的数据上进行训练和评估。此外,OpenDebateEvidence还提供了丰富的元数据,使得模型能够更好地理解和生成论点。
实际应用
OpenDebateEvidence数据集在实际应用中具有广泛的应用前景。例如,它可以被用于开发辩论辅助工具,帮助辩论者更好地组织和分析论据。此外,该数据集还可以被用于开发法律文书分析工具,帮助律师更好地理解和分析法律文书。此外,该数据集还可以被用于开发教育工具,帮助学生更好地理解和学习辩论技巧。
数据集最近研究
最新研究方向
OpenDebateEvidence数据集的最新研究方向集中在利用大规模的辩论证据数据集来训练和评估先进的语言模型,以提高其在论证挖掘和摘要方面的能力。该数据集的引入旨在解决现有辩论数据集在规模、代表性和实用性方面的局限性,通过提供丰富的元数据和详尽的论证结构,为研究人员和从业者提供了宝贵的资源。此外,该数据集在论证质量评估、多级论证摘要、论证生成和反驳、跨领域论证挖掘、理解说服和情绪以及辩论指导和教育等方面具有潜在的应用价值。未来的研究方向可能包括探索更多的微调技术和扩大数据集的规模,以及研究跨语言和多模态数据的集成,以进一步推动计算论证研究的发展。
相关研究论文
  • 1
    OpenDebateEvidence: A Massive-Scale Argument Mining and Summarization Dataset美国竞争性辩论社区 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

CMACD

这是一个基于社交媒体用户的多标签中文情感计算数据集,整合了用户的性格特质与六种情感及微情感,每种情感都标注了强度级别。数据集旨在推进机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。

github 收录