five

strombergnlp/ara-stance

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/strombergnlp/ara-stance
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - crowdsourced language_creators: - found language: - ar license: - cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - text-classification task_ids: - fact-checking pretty_name: ara-stance tags: - stance-detection --- # Dataset Card for AraStance ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Repository:** [https://github.com/Tariq60/arastance](https://github.com/Tariq60/arastance) - **Paper:** [https://arxiv.org/abs/2104.13559](https://arxiv.org/abs/2104.13559) - **Point of Contact:** [Tariq Alhindi](tariq@cs.columbia.edu) ### Dataset Summary The AraStance dataset contains true and false claims, where each claim is paired with one or more documents. Each claim–article pair has a stance label: agree, disagree, discuss, or unrelated. ### Languages Arabic ## Dataset Structure ### Data Instances An example of 'train' looks as follows: ``` { 'id': '0', 'claim': 'تم رفع صورة السيسي في ملعب ليفربول', 'article': 'خطفت مكة محمد صلاح نجلة نجم ليفربول الإنجليزي الأنظار في ظهورها بملعب آنفيلد عقب مباراة والدها أمام برايتون في ختام الدوري الإنجليزي والتي انتهت بفوز الأول برباعية نظيفة. وأوضحت صحيفة "ميرور" البريطانية أن مكة محمد صلاح أضفت حالة من المرح في ملعب آنفيلد أثناء مداعبة الكرة بعد تتويج نجم منتخب مصر بجائزة هداف الدوري الإنجليزي. وأشارت إلى أن مكة أظهرت بعضًا من مهاراتها بمداعبة الكرة ونجحت في خطف قلوب مشجعي الريدز.', 'stance': 3 } ``` ### Data Fields - `id`: a 'string' feature. - `claim`: a 'string' expressing a claim/topic. - `article`: a 'string' to be classified for its stance to the source. - `stance`: a class label representing the stance the article expresses towards the claim. Full tagset with indices: ``` 0: "Agree", 1: "Disagree", 2: "Discuss", 3: "Unrelated", ``` ### Data Splits |name|instances| |----|----:| |train|2848| |validation|569| |test|646| ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators The dataset is curated by the paper's authors ### Licensing Information The authors distribute this data under Creative Commons attribution license, CC-BY 4.0 ### Citation Information ``` @article{arastance, url = {https://arxiv.org/abs/2104.13559}, author = {Alhindi, Tariq and Alabdulkarim, Amal and Alshehri, Ali and Abdul-Mageed, Muhammad and Nakov, Preslav}, title = {AraStance: A Multi-Country and Multi-Domain Dataset of Arabic Stance Detection for Fact Checking}, year = {2021}, copyright = {Creative Commons Attribution 4.0 International} } ``` ### Contributions Thanks to [mkonxd](https://github.com/mkonxd) for adding this dataset.
提供机构:
strombergnlp
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: AraStance
  • 数据集摘要: AraStance数据集包含真实和虚假的主张,每个主张与一个或多个文档配对。每个主张-文章对都有一个立场标签:同意、不同意、讨论或无关。
  • 支持的任务和排行榜: 事实核查
  • 语言: 阿拉伯语

数据集结构

数据实例

一个train样本如下所示: json { "id": "0", "claim": "تم رفع صورة السيسي في ملعب ليفربول", "article": "خطفت مكة محمد صلاح نجلة نجم ليفربول الإنجليزي الأنظار في ظهورها بملعب آنفيلد عقب مباراة والدها أمام برايتون في ختام الدوري الإنجليزي والتي انتهت بفوز الأول برباعية نظيفة. وأوضحت صحيفة "ميرور" البريطانية أن مكة محمد صلاح أضفت حالة من المرح في ملعب آنفيلد أثناء مداعبة الكرة بعد تتويج نجم منتخب مصر بجائزة هداف الدوري الإنجليزي. وأشارت إلى أن مكة أظهرت بعضًا من مهاراتها بمداعبة الكرة ونجحت في خطف قلوب مشجعي الريدز.", "stance": 3 }

数据字段

  • id: 字符串特征。
  • claim: 表达主张/主题的字符串。
  • article: 用于分类其对源主张立场的字符串。
  • stance: 表示文章对主张立场的类别标签。完整标签集及其索引: json 0: "Agree", 1: "Disagree", 2: "Discuss", 3: "Unrelated",

数据分割

名称 实例数量
train 2848
validation 569
test 646

数据集创建

数据集策展人

数据集由论文作者策展。

许可信息

作者根据Creative Commons Attribution许可证(CC-BY 4.0)发布此数据。

引用信息

bibtex @article{arastance, url = {https://arxiv.org/abs/2104.13559}, author = {Alhindi, Tariq and Alabdulkarim, Amal and Alshehri, Ali and Abdul-Mageed, Muhammad and Nakov, Preslav}, title = {AraStance: A Multi-Country and Multi-Domain Dataset of Arabic Stance Detection for Fact Checking}, year = {2021},
copyright = {Creative Commons Attribution 4.0 International} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作