strombergnlp/x-stance
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/strombergnlp/x-stance
下载链接
链接失效反馈官方服务:
资源简介:
X-Stance数据集是一个多语言、多目标的数据集,主要用于立场检测任务。数据集包含超过150个政治问题和67k个候选人对这些问题的评论,评论语言主要为德语、法语和意大利语。数据来源于瑞士的投票建议平台Smartvote。数据集的结构包括数据实例、数据字段和数据分割,其中数据字段包括id、question、comment和label。
The X-Stance dataset is a multilingual, multi-target dataset primarily designed for stance detection tasks. It contains over 150 political questions and 67k comments from candidates regarding these questions, with the main languages of the comments being German, French, and Italian. The dataset is sourced from the Swiss voting advice platform Smartvote. Its structure includes data instances, data fields, and data splits, where the data fields consist of id, question, comment, and label.
提供机构:
strombergnlp
原始信息汇总
数据集概述
数据集名称
- 名称: X-Stance
数据集摘要
- 摘要: X-Stance数据集包含超过150个政治问题和67,000条候选人对这些问题的评论。评论部分为德语,部分为法语和意大利语。数据从瑞士投票建议平台Smartvote提取。
支持的任务和排行榜
- 任务: 文本分类
- 任务ID: 事实核查
语言
- 语言: 德语, 法语/意大利语
数据集结构
数据实例
-
示例:
{ id: 0, question: Eine Volksinitiative fordert, dass die Gesamtfläche der Bauzonen in der Schweiz für die nächsten 20 Jahre auf dem heutigen Stand begrenzt wird. Befürworten Sie dieses Anliegen?, comment: Eine fixe Grösse verbieten, ist das falsche Mittel, label: 0 }
数据字段
- 字段:
id: 字符串类型question: 表达声明/主题的字符串comment: 需要对其立场进行分类的字符串label:0: "AGAINST"1: "FAVOR"
数据分割
- 分割:
语言 名称 实例数 德语 训练 33,850 德语 验证 2,871 德语 测试 11,891 法语 训练 11,790 法语 验证 1,055 法语 测试 5,814
数据集创建
许可证信息
- 许可证: MIT License
引用信息
-
引用:
@article{vamvas2020x, title={X-stance: A multilingual multi-target dataset for stance detection}, author={Vamvas, Jannis and Sennrich, Rico}, journal={arXiv preprint arXiv:2003.08385}, year={2020} }
搜集汇总
数据集介绍

构建方式
在政治立场检测领域,X-Stance数据集的构建体现了多语言环境下数据采集的严谨性。该数据集源自瑞士投票建议平台Smartvote,通过自动化流程提取了超过150个政治议题及相关候选人的评论,形成了涵盖德语、法语和意大利语的文本集合。数据规模介于一万至十万条之间,采用众包方式进行标注,确保了立场标签的客观性。构建过程中,原始数据经过规范化处理,形成了结构化的问答对,为后续研究提供了可靠的多语言基准。
特点
X-Stance数据集的核心特点在于其多语言与多目标属性,覆盖德语、法语和意大利语的政治评论,为跨语言立场检测研究提供了丰富素材。数据实例包含议题表述、候选人评论及二元立场标签,结构清晰且规模适中,便于模型训练与评估。数据集采用MIT许可协议,支持学术与商业用途,同时通过标准划分的訓練、验证与测试集,确保了实验的可重复性与公平性。
使用方法
该数据集适用于文本分类任务中的立场检测,用户可通过加载预定义的数据分割,直接用于模型训练与评估。典型流程包括解析议题、评论及对应标签,利用多语言文本特征进行模型构建,以预测评论对议题的支持或反对立场。研究者可结合跨语言迁移学习等方法,探索政治话语中的立场模式,数据集的标准格式确保了与主流机器学习框架的兼容性。
背景与挑战
背景概述
在自然语言处理领域,立场检测作为文本分类的重要分支,旨在识别文本对特定主张或议题所持的支持或反对态度。X-Stance数据集由苏黎世大学的研究团队于2020年创建,其核心研究问题聚焦于多语言多目标环境下的立场检测任务。该数据集基于瑞士投票建议平台Smartvote构建,涵盖了德语、法语和意大利语的政治问题与候选人评论,为跨语言立场分析提供了宝贵资源。其发布不仅推动了多语言立场检测模型的发展,也为政治计算和社会科学领域的交叉研究奠定了数据基础,促进了相关算法在真实场景中的应用与评估。
当前挑战
X-Stance数据集所解决的领域挑战在于多语言立场检测的复杂性,包括语言间的语义差异、文化背景对立场表达的影响,以及跨语言模型泛化能力的提升。构建过程中,数据采集面临多源政治文本的整合难题,需确保问题与评论的对应准确性;注释环节依赖众包,但涉及主观性较强的立场标注,易引入标注者偏见与一致性风险。此外,数据平衡性与代表性亦存局限,部分语言或议题的样本覆盖不均,可能影响模型训练的公平性与鲁棒性。
常用场景
经典使用场景
在政治立场检测领域,X-Stance数据集为研究者提供了多语言、多目标的丰富语料,其经典使用场景在于训练和评估立场检测模型。该数据集源自瑞士投票建议平台Smartvote,包含超过150个政治问题及67,000条候选人的评论,涵盖德语、法语和意大利语。通过分析评论对问题的支持或反对立场,模型能够学习跨语言的政治观点表达模式,为立场检测任务提供了标准化的基准测试环境。
实际应用
在实际应用中,X-Stance数据集可用于构建智能政治分析工具,辅助媒体机构、研究机构或政府部门监测公众对政治议题的立场倾向。例如,在选举期间,基于该数据集的模型能自动分析候选人对特定政策的表态,生成立场报告,提升政治决策的透明度和效率。此外,它还可用于教育领域,帮助学生理解多语言环境下的政治辩论结构。
衍生相关工作
X-Stance数据集衍生了一系列经典研究工作,例如基于多语言预训练模型的立场检测方法,如BERT和XLM-R的变体,这些模型利用该数据集进行微调,显著提升了跨语言立场检测的准确率。相关研究还探索了立场检测与事实核查的结合,推动了自动化政治分析系统的开发。这些工作不仅丰富了立场检测的理论框架,也为多语言自然语言处理应用提供了实践参考。
以上内容由遇见数据集搜集并总结生成



