five

ZurichNLP/x_stance

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ZurichNLP/x_stance
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - machine-generated language: - de - en - fr - it language_creators: - found license: - cc-by-nc-4.0 multilinguality: - multilingual pretty_name: x-stance size_categories: - 10K<n<100K source_datasets: - original task_categories: - text-classification task_ids: [] paperswithcode_id: x-stance tags: - stance-detection dataset_info: features: - name: question dtype: string - name: id dtype: int32 - name: question_id dtype: int32 - name: language dtype: string - name: comment dtype: string - name: label dtype: string - name: numerical_label dtype: int32 - name: author dtype: string - name: topic dtype: string splits: - name: train num_bytes: 17619123 num_examples: 45640 - name: test num_bytes: 6607134 num_examples: 17705 - name: validation num_bytes: 1505979 num_examples: 3926 download_size: 6410801 dataset_size: 25732236 --- # Dataset Card for "x_stance" ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** - **Repository:** https://github.com/ZurichNLP/xstance - **Paper:** [X-Stance: A Multilingual Multi-Target Dataset for Stance Detection](https://arxiv.org/abs/2003.08385) - **Point of Contact:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **Size of downloaded dataset files:** 6.41 MB - **Size of the generated dataset:** 25.73 MB - **Total amount of disk used:** 32.14 MB ### Dataset Summary The x-stance dataset contains more than 150 political questions, and 67k comments written by candidates on those questions. It can be used to train and evaluate stance detection systems. ### Supported Tasks and Leaderboards [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Languages The comments are partly German, partly French and Italian. The questions are available in all the three languages plus English. ## Dataset Structure ### Data Instances #### default - **Size of downloaded dataset files:** 6.41 MB - **Size of the generated dataset:** 25.73 MB - **Total amount of disk used:** 32.14 MB An example of 'train' looks as follows. ``` { "author": "f27b54a137b4", "comment": "Das Arbeitsgesetz regelt die Arbeitszeiten und schützt den Arbeitnehmer. Es macht doch Sinn, dass wenn eine Nachfrage besteht, die Läden öffnen dürfen und wenn es keine Nachfrage gibt, diese geschlossen bleiben.", "id": 10045, "label": "FAVOR", "language": "de", "numerical_label": 100, "question": "Sind Sie für eine vollständige Liberalisierung der Geschäftsöffnungszeiten (Geschäfte können die Öffnungszeiten nach freiem Ermessen festlegen)?", "question_id": 739, "topic": "Economy" } ``` ### Data Fields The data fields are the same among all splits. #### default - `question`: a `string` feature. - `id`: a `int32` feature. - `question_id`: a `int32` feature. - `language`: a `string` feature. - `comment`: a `string` feature. - `label`: a `string` feature. - `numerical_label`: a `int32` feature. - `author`: a `string` feature. - `topic`: a `string` feature. ### Data Splits | name |train|validation|test | |-------|----:|---------:|----:| |default|45640| 3926|17705| ## Dataset Creation ### Curation Rationale [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Source Data #### Initial Data Collection and Normalization The data have been extracted from the Swiss voting advice platform Smartvote.ch. #### Who are the source language producers? [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Annotations #### Annotation process [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) #### Who are the annotators? [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Personal and Sensitive Information [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Discussion of Biases [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Other Known Limitations [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## Additional Information ### Dataset Curators [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Licensing Information The dataset is licensed under [CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/). ### Citation Information ``` @inproceedings{vamvas2020xstance, author = "Vamvas, Jannis and Sennrich, Rico", title = "{X-Stance}: A Multilingual Multi-Target Dataset for Stance Detection", booktitle = "Proceedings of the 5th Swiss Text Analytics Conference (SwissText) \& 16th Conference on Natural Language Processing (KONVENS)", address = "Zurich, Switzerland", year = "2020", month = "jun", url = "http://ceur-ws.org/Vol-2624/paper9.pdf" } ``` ### Contributions Thanks to [@lewtun](https://github.com/lewtun), [@mariamabarham](https://github.com/mariamabarham), [@thomwolf](https://github.com/thomwolf), [@patrickvonplaten](https://github.com/patrickvonplaten), [@jvamvas](https://github.com/jvamvas) for adding this dataset.

annotations_creators: - 机器生成 language: - 德语 - 英语 - 法语 - 意大利语 language_creators: - 公开采集(found) license: - CC BY-NC 4.0 multilinguality: - 多语言 pretty_name: x-stance size_categories: - 10K<n<100K source_datasets: - 原始数据集 task_categories: - 文本分类 task_ids: [] paperswithcode_id: x-stance tags: - 立场检测(stance-detection) dataset_info: features: - name: question dtype: string - name: id dtype: int32 - name: question_id dtype: int32 - name: language dtype: string - name: comment dtype: string - name: label dtype: string - name: numerical_label dtype: int32 - name: author dtype: string - name: topic dtype: string splits: - name: train num_bytes: 17619123 num_examples: 45640 - name: test num_bytes: 6607134 num_examples: 17705 - name: validation num_bytes: 1505979 num_examples: 3926 download_size: 6410801 dataset_size: 25732236 ## 数据集卡片:x-stance ## 目录 - [数据集概述](#数据集概述) - [数据集摘要](#数据集摘要) - [支持任务与排行榜](#支持任务与排行榜) - [语言覆盖](#语言覆盖) - [数据集结构](#数据集结构) - [数据样例](#数据样例) - [数据字段说明](#数据字段说明) - [数据集划分](#数据集划分) - [数据集构建](#数据集构建) - [构建初衷](#构建初衷) - [源数据](#源数据) - [标注信息](#标注信息) - [个人与敏感信息](#个人与敏感信息) - [数据集使用注意事项](#数据集使用注意事项) - [数据集的社会影响](#数据集的社会影响) - [偏差分析](#偏差分析) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [数据集维护者](#数据集维护者) - [许可证信息](#许可证信息) - [引用信息](#引用信息) - [贡献者](#贡献者) ## 数据集概述 - **主页:** 无 - **代码仓库:** https://github.com/ZurichNLP/xstance - **相关论文:** [X-Stance:一款用于立场检测的多语言多目标数据集(X-Stance: A Multilingual Multi-Target Dataset for Stance Detection)](https://arxiv.org/abs/2003.08385) - **联系方式:** [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **下载数据集大小:** 6.41 MB - **生成后数据集大小:** 25.73 MB - **总磁盘占用:** 32.14 MB ### 数据集摘要 x-stance数据集包含超过150个政治类问题,以及候选人士针对这些问题发表的6.7万条评论。该数据集可用于训练与评估立场检测(stance detection)系统。 ### 支持任务与排行榜 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### 语言覆盖 评论内容包含德语、法语与意大利语,问题则支持上述三种语言外加英语。 ## 数据集结构 ### 数据样例 #### 默认配置 - **下载数据集大小:** 6.41 MB - **生成后数据集大小:** 25.73 MB - **总磁盘占用:** 32.14 MB 训练集的一条样例如下: { "author": "f27b54a137b4", "comment": "Das Arbeitsgesetz regelt die Arbeitszeiten und schützt den Arbeitnehmer. Es macht doch Sinn, dass wenn eine Nachfrage besteht, die Läden öffnen dürfen und wenn es keine Nachfrage gibt, diese geschlossen bleiben.", "id": 10045, "label": "FAVOR", "language": "de", "numerical_label": 100, "question": "Sind Sie für eine vollständige Liberalisierung der Geschäftsöffnungszeiten (Geschäfte können die Öffnungszeiten nach freiem Ermessen festlegen)?", "question_id": 739, "topic": "Economy" } ### 数据字段说明 所有数据集划分的字段结构均保持一致: #### 默认配置 - `question`:字符串类型,代表待讨论的主题问题 - `id`:int32类型,样本唯一标识符 - `question_id`:int32类型,对应问题的唯一标识符 - `language`:字符串类型,标注评论与问题的语言类型 - `comment`:字符串类型,候选人发表的评论内容 - `label`:字符串类型,立场标签(如`FAVOR`表示支持立场) - `numerical_label`:int32类型,数值化转换后的立场标签 - `author`:字符串类型,评论作者的匿名标识 - `topic`:字符串类型,评论所属的主题类别 ### 数据集划分 | 划分名称 | 训练集样本数 | 验证集样本数 | 测试集样本数 | | ------- | ----: | -----: | ----: | | 默认配置 | 45640 | 3926 | 17705 | ## 数据集构建 ### 构建初衷 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### 源数据 #### 初始数据收集与标准化 该数据集源自瑞士投票咨询平台Smartvote.ch。 #### 源语言生产者信息 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### 标注信息 #### 标注流程 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) #### 标注人员信息 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### 个人与敏感信息 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## 数据集使用注意事项 ### 数据集的社会影响 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### 偏差分析 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### 其他已知局限性 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## 附加信息 ### 数据集维护者 [更多信息待补充](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### 许可证信息 本数据集采用[CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/)开源许可证。 ### 引用信息 @inproceedings{vamvas2020xstance, author = "Vamvas, Jannis and Sennrich, Rico", title = "{X-Stance}: A Multilingual Multi-Target Dataset for Stance Detection", booktitle = "Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS)", address = "Zurich, Switzerland", year = "2020", month = "jun", url = "http://ceur-ws.org/Vol-2624/paper9.pdf" } ### 贡献者 感谢[@lewtun](https://github.com/lewtun)、[@mariamabarham](https://github.com/mariamabarham)、[@thomwolf](https://github.com/thomwolf)、[@patrickvonplaten](https://github.com/patrickvonplaten)、[@jvamvas](https://github.com/jvamvas) 为本数据集的添加提供的贡献。
提供机构:
ZurichNLP
原始信息汇总

数据集概述

数据集名称

  • 名称: x-stance
  • 别名: x_stance

数据集属性

  • 语言: 多语言(德语、英语、法语、意大利语)
  • 许可证: CC BY-NC 4.0
  • 多语言性: 多语言
  • 大小: 10K<n<100K
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 标签: 立场检测

数据集结构

  • 特征:

    • question: 字符串
    • id: int32
    • question_id: int32
    • language: 字符串
    • comment: 字符串
    • label: 字符串
    • numerical_label: int32
    • author: 字符串
    • topic: 字符串
  • 数据分割:

    • train: 45640 实例
    • test: 17705 实例
    • validation: 3926 实例

数据集创建

  • 源数据: 从瑞士投票咨询平台Smartvote.ch提取

  • 许可证信息: 数据集根据CC BY-NC 4.0许可证发布

  • 引用信息:

    @inproceedings{vamvas2020xstance, author = "Vamvas, Jannis and Sennrich, Rico", title = "{X-Stance}: A Multilingual Multi-Target Dataset for Stance Detection", booktitle = "Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS)", address = "Zurich, Switzerland", year = "2020", month = "jun", url = "http://ceur-ws.org/Vol-2624/paper9.pdf" }

数据集用途

  • 用途: 用于训练和评估立场检测系统
  • 内容摘要: 包含超过150个政治问题和67k候选人对这些问题的评论
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于瑞士投票建议平台Smartvote.ch的原始数据,经过提取和规范化处理,形成了包含政治问题及候选人对此问题的评论的集合。数据集涵盖了德语、英语、法语和意大利语四种语言,标注过程采用了机器生成的方式,构建出一个多语言、多目标立场检测的数据集。
特点
x-stance数据集的特点在于其多语言性和多目标性。它包含了超过150个政治问题及67000多条候选人的评论,覆盖了不同的社会主题。数据集以CC BY-NC 4.0许可授权,适用于训练和评估立场检测系统。此外,数据集的结构化设计使得其在标注和特征字段上具有明确性,便于研究者进行数据处理和分析。
使用方法
使用该数据集时,研究者可以依据提供的train、validation和test三个数据集划分进行模型的训练、验证和测试。数据集的字段包括问题、评论、作者、话题、标签等,这些字段为构建和评估立场检测模型提供了丰富的信息。用户需遵守数据使用的相关法律和道德规范,合理利用数据集资源。
背景与挑战
背景概述
x-stance数据集是由苏黎世大学的Jannis Vamvas和Rico Sennrich等于2020年创建的多语言立场的检测数据集。该数据集源于瑞士投票建议平台Smartvote.ch,包含超过150个政治问题及67,000条候选人针对这些问题的评论。数据集支持多种语言,包括德语、英语、法语和意大利语,旨在为立场检测系统提供训练和评估资源,对自然语言处理领域中的立场检测研究具有重要影响。
当前挑战
x-stance数据集在构建过程中面临的挑战包括数据收集、标注的准确性和多语言处理的复杂性。研究领域的问题主要集中在如何有效地从候选人评论中识别其对特定问题的立场,并解决由此产生的标签不平衡、语言差异及潜在的偏见问题。构建过程中的挑战则体现在如何确保数据质量,处理个人敏感信息,以及遵守相应的数据使用许可。
常用场景
经典使用场景
在文本分类领域,x-stance数据集以其多语言特性,成为 stance detection 任务的重要资源。该数据集包含了政治议题及其相关评论,为系统提供了识别评论者立场的能力,从而广泛应用于意见挖掘和情感分析。
解决学术问题
x-stance数据集解决了多语言环境下立场检测的学术问题,为研究者在跨语言 stance detection 领域提供了宝贵的实验数据。它的多目标特性使得对多个议题的立场分析成为可能,进而促进了相关算法和模型的研发。
衍生相关工作
基于x-stance数据集,研究者们已开展了一系列相关工作,如改进 stance detection 算法、构建多语言立场分析模型等,这些研究进一步拓展了该数据集的应用范围,推动了自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作