five

Cross-Domain Argumentative Stance Classification Benchmark

收藏
arXiv2024-10-11 更新2024-10-16 收录
下载链接:
http://arxiv.org/abs/2410.08900v1
下载链接
链接失效反馈
官方服务:
资源简介:
Cross-Domain Argumentative Stance Classification Benchmark是由北卡罗来纳州立大学创建的一个多领域论点立场分类数据集。该数据集包含4,498个主题声明和30,961个论点,涵盖21个领域,来源于社交媒体平台、辩论网站和大型语言模型生成的论点。数据集的创建过程利用了平台规则、专家策划内容和大型语言模型,避免了人工标注的繁琐。该数据集主要应用于跨领域的论点立场分类研究,旨在解决现有数据集领域单一和标注成本高的问题。

The Cross-Domain Argumentative Stance Classification Benchmark is a multi-domain argumentative stance classification dataset developed by North Carolina State University. This dataset includes 4,498 topic statements and 30,961 arguments spanning 21 domains, sourced from social media platforms, debate websites, and arguments generated by large language models. The dataset construction process leverages platform rules, expert-curated content, and large language models to eliminate the cumbersome manual annotation workflow. Primarily applied to cross-domain argumentative stance classification research, this dataset aims to address the issues of limited single-domain coverage and high annotation costs in existing datasets.
提供机构:
北卡罗来纳州立大学
创建时间:
2024-10-11
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式独具匠心,通过利用平台规则、专家策划内容以及大型语言模型,实现了无需人工标注的高效数据生成。具体而言,研究团队从三个不同的来源——社交媒体平台、两个辩论网站以及大型语言模型(LLMs)生成的论点——收集了4,498个主题声明和30,961个论点,涵盖了21个领域。社交媒体平台上的对话被用于生成支持或反对特定观点的论点,而辩论网站则提供了结构化的对立论点。此外,LLMs被用来生成针对给定主题声明的双方论点,从而进一步丰富了数据集的多样性。
使用方法
该数据集可用于多种机器学习任务,特别是在立场分类领域。研究者可以使用该数据集进行监督学习、零样本学习和少样本学习实验,以评估和改进立场分类模型的性能。具体使用方法包括:首先,将数据集划分为训练集、验证集和测试集;其次,使用训练集对模型进行训练,验证集用于调整模型参数,测试集用于最终评估。此外,该数据集还可用于探索不同学习方法(如监督学习、零样本学习和少样本学习)在跨领域立场分类中的表现,从而为实际应用提供有价值的参考。
背景与挑战
背景概述
跨领域论点立场分类基准数据集(Cross-Domain Argumentative Stance Classification Benchmark)由北卡罗来纳州立大学的Jiaqing Yuan、Ruijie Xi和Munindar P. Singh于2025年创建。该数据集旨在解决社交媒体上跨领域论点立场分类的挑战,核心研究问题是如何在不同领域中准确识别作者对特定话题的观点或立场。现有基准数据集通常局限于单一领域或有限的话题,且手动标注耗时且劳动密集。为应对这些挑战,研究团队提出利用平台规则、专家策划内容和大型语言模型来绕过人工标注的需求。该数据集包含4,498个话题声明和30,961个论点,涵盖21个领域,为跨领域立场分类提供了丰富的资源。
当前挑战
该数据集面临的挑战主要包括两个方面:一是解决跨领域立场分类的复杂性,现有数据集通常局限于单一领域或少数话题,导致模型在不同领域间的泛化能力受限;二是数据集构建过程中遇到的挑战,如手动标注的高成本和低效率。此外,如何确保生成的论点在不同领域和话题间保持多样性和高质量,也是该数据集需要克服的重要问题。通过引入大型语言模型生成论点,虽然提高了数据集的多样性,但也带来了生成内容的质量和一致性问题。
常用场景
经典使用场景
在跨领域论证立场分类的背景下,Cross-Domain Argumentative Stance Classification Benchmark 数据集被广泛用于识别社交媒体上作者对特定话题的观点。该数据集通过整合社交媒体平台、辩论网站和大型语言模型生成的数据,构建了一个多领域、多来源的基准,涵盖了21个领域和4,498个话题。这一数据集的经典使用场景包括在全监督、零样本和少样本设置下进行立场分类,以评估不同方法的优劣,特别是在跨领域和跨话题的立场分类任务中。
解决学术问题
该数据集解决了现有基准数据集在单一领域或有限话题上的局限性,通过引入多领域和多来源的数据,提升了立场分类模型的泛化能力。此外,该数据集通过利用平台规则、专家策划内容和大型语言模型,避免了人工标注的时间和劳动成本,为立场分类研究提供了更为高效和可扩展的解决方案。其意义在于推动了立场分类技术的发展,特别是在处理多样化和复杂化的话题时,为学术研究提供了新的视角和方法。
实际应用
在实际应用中,Cross-Domain Argumentative Stance Classification Benchmark 数据集可用于社交媒体监控、舆情分析和政策制定等领域。例如,政府和企业在进行公共政策讨论时,可以利用该数据集来分析公众对特定政策的立场,从而更好地理解民意和调整策略。此外,该数据集还可用于开发智能客服系统,帮助企业快速识别和回应客户的立场和需求,提升客户服务质量。
数据集最近研究
最新研究方向
在跨领域论证立场分类领域,最新的研究方向集中在利用大型语言模型(LLMs)生成多样化的论证句对,以构建多领域的基准数据集。这种方法通过平台规则、专家策划内容和LLMs的结合,避免了传统上耗时且劳动密集的人工标注过程。研究不仅关注全监督学习,还探索了零样本和少样本学习设置下的模型性能,揭示了不同方法在跨领域立场分类中的优势与局限。此外,研究还强调了指令调优在优化LLMs性能中的有效性,为下游任务的适应提供了新的视角。
相关研究论文
  • 1
    A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media北卡罗来纳州立大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作