SEMEVAL-2021-task6-corpus

github2024-01-25 更新2024-05-31 收录

下载链接：

https://github.com/di-dimitrov/SEMEVAL-2021-task6-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

用于SemEval-2021任务6的数据集，旨在检测文本和图像中的说服技巧。数据集包含多个版本，用于训练和测试，支持多个子任务，如文本内容中的说服技巧识别和多模态任务中的技巧识别。

The dataset for SemEval-2021 Task 6 is designed to detect persuasive techniques in text and images. It includes multiple versions for training and testing, supporting various subtasks such as the identification of persuasive techniques in textual content and multimodal task technique recognition.

创建时间：

2020-10-24

原始信息汇总

数据集概述

数据集名称

SemEval-2021 Task 6: Detection of Persuasive Techniques in Texts and Images

数据集版本

v1.6.3 [2021/02/15] - 发布测试数据的黄金标签，适用于子任务1、2和3。
v1.6.2 [2021/01/22] - 发布开发数据的黄金标签，适用于子任务1、2和3。
v1.6.1 [2021/01/22] - 发布测试数据（新增200个memes），并添加80个新的训练memes，总计687个训练memes + 63个开发memes + 200个测试memes。
v1.5 [2020/12/28] - 发布第五批训练数据（新增120个memes），总计607个训练memes + 63个开发memes。
v1.4 [2020/12/21] - 发布第四批训练数据（新增197个memes），总计487个训练memes + 63个开发memes。
v1.3 [2020/12/03] - 发布第三批训练数据（新增88个memes），总计290个训练memes + 63个开发memes。
v1.2 [2020/11/26] - 发布第二批训练数据（新增101个memes），总计202个训练memes + 63个开发memes。
v1.1 [2020/11/02] - 发布开发数据（63个memes）。
v1.0 [2020/10/24] - 发布训练数据（101个memes）。

子任务描述

Subtask 1: 根据meme的文本内容，识别其中使用的技术（多标签分类问题）。
Subtask 2: 根据meme的文本内容，识别其中使用的技术及其在文本中的范围。
Subtask 3: 根据meme（包括文本和视觉内容），识别其中使用的所有技术（多模态任务）。

数据格式

数据类型： JSON文件
编码： UTF-8
数据位置：
- Subtask 1: data/training_set_task1.txt, data/dev_set_task1.txt
- Subtask 2: data/training_set_task2.txt, data/dev_set_task1.txt
- Subtask 3: data/training_set_task3.zip, data/dev_set_task3.zip

输入数据格式

Subtask 1: JSON对象包含id、labels（宣传技术列表）和text（meme的文本内容）。
Subtask 2: JSON对象包含id、text和labels（对象列表，每个对象包含技术范围的起始和结束索引、技术名称和文本片段）。
Subtask 3: JSON对象包含id、text、image（图像文件名）和labels（宣传技术列表）。

预测文件格式

预测文件为单个JSON文件，包含每个meme的"id"和"labels"字段。对于Subtask 2，labels字段中的每个条目必须包含"start", "end", "technique"字段。

格式检查器

格式检查器位于format_checker模块中，用于验证生成的结果文件是否符合预期格式。

评分器和官方评估指标

Subtask 1和3: 官方评估指标为micro-F1，评分器位于scorer模块中。
Subtask 2: 评分器位于另一个仓库，支持多标签序列标记任务的评估。

基准线

Subtask 1: 随机基准线，F1分数为0.04494。
Subtask 2: 随机生成基准线，F1分数为0.00699。
Subtask 3: 随机基准线，F1分数为0.03376。

许可证

数据集免费供一般研究使用。

引用

bibtex @InProceedings{SemEval2021:task6, author = {Dimitar Dimitrov and Bin Ali, Bishr and Shaden Shaar and Firoj Alam and Fabrizio Silvestri and Hamed Firooz and Preslav Nakov and Da San Martino, Giovanni}, title = {{SemEval-2021 Task 6}: Detection of Persuasion Techniques in Texts and Images}, booktitle = {Proceedings of the International Workshop on Semantic Evaluation}, series = {SemEval~21}, year = {2021}, url = {https://arxiv.org/abs/2105.09284}, }

搜集汇总

数据集介绍

构建方式

SEMEVAL-2021-task6-corpus数据集的构建基于SemEval-2021 Task 6任务，旨在检测文本和图像中的说服技巧。数据集通过多批次发布，逐步增加了训练、开发和测试数据。具体而言，数据集包含了687个训练样本、63个开发样本和200个测试样本。每个样本均以JSON格式存储，文本编码为UTF-8。数据集的构建过程中，还参考了PTC语料库的标注，确保了标注的一致性和广泛性。

特点

该数据集的特点在于其多模态性质，涵盖了文本和图像两种数据形式。数据集分为三个子任务：子任务1要求识别文本中的说服技巧；子任务2要求识别文本中的说服技巧及其对应的文本片段；子任务3则要求识别包括文本和图像在内的所有说服技巧。每个子任务的数据格式均以JSON文件呈现，便于数据处理和分析。此外，数据集提供了详细的格式检查器和评分器，确保用户提交的预测文件符合规范。

使用方法

使用SEMEVAL-2021-task6-corpus数据集时，用户需首先安装所需的Python依赖库。对于子任务1和子任务3，用户可通过运行格式检查器验证预测文件的格式，并通过评分器获取模型的性能评估。子任务2的格式检查器集成在评分器中，用户需运行评分器以同时检查格式和评估性能。数据集的使用还包括上传预测文件至共享任务网站，以获取官方评估结果。此外，数据集提供了随机基线模型，用户可参考这些基线模型进行初步实验。

背景与挑战

背景概述

SEMEVAL-2021-task6-corpus数据集由国际语义评测大会（SemEval）于2021年推出，旨在推动文本与图像中说服性技术检测的研究。该数据集由Dimitar Dimitrov、Bishr Bin Ali等多位学者共同创建，主要聚焦于识别和分析网络迷因（meme）中的说服性技术。数据集包含三个子任务：文本内容中的技术识别、文本片段中的技术定位以及多模态内容中的技术检测。该数据集的发布为自然语言处理与计算机视觉的交叉领域提供了重要的研究资源，尤其在社交媒体内容分析与信息传播控制方面具有广泛的应用前景。

当前挑战

SEMEVAL-2021-task6-corpus数据集在解决说服性技术检测问题时面临多重挑战。首先，说服性技术的多样性与复杂性使得模型难以准确识别和分类，尤其是在多模态任务中，文本与图像的结合增加了分析的难度。其次，数据标注的准确性与一致性是构建高质量数据集的关键，但由于说服性技术的主观性，标注过程中可能存在偏差。此外，数据集的规模相对有限，尤其是多模态任务的数据量较少，可能影响模型的泛化能力。在构建过程中，研究人员还需平衡不同子任务的数据分布，确保各任务之间的协同性与一致性。这些挑战为后续研究提供了重要的改进方向。

常用场景

经典使用场景

在自然语言处理领域，SEMEVAL-2021-task6-corpus数据集被广泛应用于检测文本和图像中的说服技巧。该数据集通过多标签分类任务，帮助研究者识别和分析网络迷因中的各种宣传手法，尤其是在社交媒体和新闻传播中的影响力。其经典使用场景包括对文本内容进行多标签分类、识别文本片段中的具体技巧，以及结合图像和文本进行多模态分析。

解决学术问题

SEMEVAL-2021-task6-corpus数据集解决了自然语言处理中一个重要的学术问题，即如何有效检测和分析文本及图像中的说服技巧。通过提供丰富的标注数据，该数据集为研究者提供了基准，帮助他们开发更精确的模型来识别复杂的宣传手法。这不仅推动了多标签分类和序列标注技术的发展，还为多模态任务的研究提供了新的视角，极大地促进了相关领域的学术进展。

衍生相关工作

基于SEMEVAL-2021-task6-corpus数据集，许多经典研究工作得以展开。例如，研究者们开发了多种深度学习模型，用于多标签分类和序列标注任务，显著提升了说服技巧检测的准确率。此外，该数据集还催生了一系列多模态分析方法，结合文本和图像信息，进一步提高了检测的全面性和精确性。这些工作不仅推动了自然语言处理技术的发展，还为相关领域的应用提供了强有力的支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集