SEACrowd/id_stance

Name: SEACrowd/id_stance
Creator: SEACrowd
Published: 2024-06-24 13:28:33
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/id_stance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Id Stance，用于对博客写作中针对政治人物的立场进行分类。数据集包含337条数据，涉及五个目标，每个目标有一个不同的事件。数据集的标签为For和Against，分别表示支持或反对目标。数据集的语言为印尼语（ind），任务类别为文本蕴含（textual-entailment）。

This dataset is named Id Stance, which is intended for classifying stances towards political figures in blog writings. It comprises 337 samples, involving five targets, each paired with a unique event. The dataset uses two labels: "For" and "Against", which respectively represent support for or opposition to the corresponding target. The language of the dataset is Indonesian (ind), and the task category is textual-entailment.

提供机构：

SEACrowd

原始信息汇总

数据集概述

名称

Id Stance

任务类别

文本蕴含（Textual Entailment）

语言

印尼语（ind）

数据集描述

该数据集包含来自第二次研究的337条数据，涉及五个目标和每个目标的一个不同事件。使用两个标签：For 和 Against。

For：作者支持目标事件的文本。
Against：作者反对目标事件的文本。

支持任务

文本蕴含（Textual Entailment）

数据集版本

源版本：1.0.0，SEACrowd版本：2024.06.20。

数据集许可证

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

引用

如果您在使用 Id Stance 数据集，请引用以下内容：

@INPROCEEDINGS{8629144,
author={R. {Jannati} and R. {Mahendra} and C. W. {Wardhana} and M. {Adriani}}, booktitle={2018 International Conference on Asian Language Processing (IALP)}, title={Stance Classification Towards Political Figures on Blog Writing}, year={2018}, volume={}, number={}, pages={96-101}, }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

SEACrowd/id_stance数据集的构建是基于政治人物在博客写作中的立场分类任务。该数据集整合了前期研究的数据集以及新的数据集，共计337条数据，涉及五个目标人物，每位目标人物对应一个不同的事件。数据集标注了两种立场标签：'For'表示作者创作的文本支持该事件中的目标人物，'Against'则表示作者创作的文本反对该事件中的目标人物。

特点

SEACrowd/id_stance数据集的特点在于，它专注于博客文章中针对政治人物的不同立场分类，为研究文本蕴含任务提供了专门的数据支持。数据集采用Creative Commons Attribution-NonCommercial-ShareAlike 4.0国际许可证发布，确保了数据的使用和共享在合法合规的框架内进行。此外，数据集的多语言特性使其在跨语言研究中具有独特的应用价值。

使用方法

用户可以通过两种方式使用SEACrowd/id_stance数据集。首先，使用HuggingFace的datasets库，通过简单的代码即可加载整个数据集。其次，通过seacrowd库，用户不仅可以加载默认配置的数据集，还可以通过特定的配置名称来加载不同的数据子集。详细的使用指南和库的安装方法可以在相关GitHub页面上找到。

背景与挑战

背景概述

SEACrowd/id_stance数据集源于对博客文章中针对政治人物立场的分类研究，其创建旨在推进文本蕴含任务的发展。该数据集由Jannati等研究者在2018年提出，并结合前期研究及新收集的数据构建而成，包含337条数据，涉及五个目标政治人物及其相关事件。数据集标注采用两种立场标签：'For'（支持）和'Againts'（反对），旨在识别作者对特定政治人物在特定事件中的立场。SEACrowd/id_stance数据集对理解政治立场分类、文本蕴含等自然语言处理领域具有重要的研究价值，并在学术界产生了广泛的影响。

当前挑战

在研究领域，SEACrowd/id_stance数据集面临的挑战主要包括：一是如何准确捕捉和分类博客文章中的微妙政治立场；二是构建过程中，确保数据标注的一致性和准确性，特别是在涉及敏感的政治话题时。此外，数据集的多语言特性也带来了跨语言信息处理的挑战，需要研究者具备处理东南亚语言的能力，以适应不同的语言环境和文化背景。

常用场景

经典使用场景

在文本蕴含任务的领域内，SEACrowd/id_stance数据集被广泛用于政治人物立场分类的研究。该数据集汇聚了博客写作中对政治人物立场的态度，包含支持（For）与反对（Against）两种标签，为研究者在文本分析中提供了一个明确的分类基准。

衍生相关工作

基于SEACrowd/id_stance数据集的研究成果，衍生出了一系列相关工作，如跨语言情感分析、政治倾向性检测以及复杂事件立场推断等，进一步拓宽了文本分析在社会科学领域的应用范围。

数据集最近研究